Abstract: 本文介绍如何使用中心极限定理,将某区间上离散的随机变量,用一段连续的正态分布来近似
Keywords: The Central Limit Theorem,Approximation
分布连续性修正
本篇应该是初等概率论的最后一篇博客,一路写下来,激动过,怀疑过,痛苦过,沮丧过,但是看着满屏幕的文字,和一些以前不知道的知识,感觉还是有收获的,虽然有些知识不能变现,但是,收益终生。我怎么知道会收益终生?如果想确定这个观点,基本要去问死了的人,因为你有死前的一瞬间,才知道什么东西在你一生中有用。但是我这么说是基于古人的观点,因为那么多古人都死过,而且他们都说读书学习非常有用,所以我选择相信那些死了的人说的话,而不是活着的——那些看起来活的还不错的人(读书无用论的那些)。
本文使用中心极限定理,通过这段区间 $[a,b]$ 上的某个正态分布的随机变量的概率,近似某区间上的离散随机变量,并且可以通过简单的调整 $Pr(X=a),Pr(X=b)$ 的近似程度,来提高整体近似度
连续分布近似离散分布 Approximating a Discrete Distribution by a Continuous Distribution
🌰 :
对于一个大的样本,6.3中我们讲了正态分布 $\mu=50,\sigma^2=25$ 可以用来近似 $n=100,p=0.5$ 的二项分布随机变量 $X$ 。特别的,如果 $Y$ 有 $\mu=50,\sigma^2=25$ 的正态分布,我们知道 $Pr(Y\leq X)$ 对于所有 $x$ 近似于 $Pr(X\leq x)$ 但是有对称的误差,如图
可以看出,离散随机变量X的c.d.f.在图中是阶梯状的,因为其变量对应的为整数,所以每个阶梯左右端点对应的是整数,那么在 $[30,70]$ 区间上,可见连续随机变量的c.d.f穿过所有的离散阶梯的中心部分,也就是 $n+0.5$ 这里对于两个分布是相等,中间左半部分 $[n,n+0.5)$ 离散的c.d.f较大,反之,右半部分连续的c.d.f.较大。
我们应该可以利用这个特点对近似做一点优化。因为我们想要个一致的近似,比如总是大于总是小于的近似,而不是一个一会儿大一会小的近似。
接下来我们讨论针对上面例子这种情况下的一种标准做法,来提高近似的质量,主要的突破点就是那个对称的误差。
让 $f(x)$ 为离散随机变量 $X$ 的p.f. ,然后用连续的随机变量的p.d.f. $g(x)$ 来近似 $f(x)$ 我们可以设连续随机变量 $Y$ 的 p.d.f. 是 $g$ ,我们设所有可能的 $X$ 都是整数,这个条件适用于我们前面介绍过的所有离散分布,二项分布,泊松分布,超几何分布等。我们可以通过以下这两个关系之间相等进行近似:
$$
Pr(a\leq X\leq b)=\sum^{b}_{x=a}f(x)
$$
以及
$$
Pr(a\leq Y\leq b)=\int^{b}_{a}g(x)dx\tag{6.4.2}
$$
只要让上面这两个概率相等就能得到一个高质量的近似,根据上一篇关于中心极限定理也可以得出 $g$ 是一个正态分布的p.d.f.
但是这个简单近似有很多不足,比如说对于离散分布经常会有 $Pr(X\geq a)\neq Pr(X>a)$ 而对于连续随机变量则有 $Pr(Y\geq a) = Pr(Y>a)$
上面的近似有点黎曼积分的意思在里面,大家可以参考数学分析书籍进行理解,因为不能取极限,所以分析误差就变成了重要的一个环节。
近似直方图 Approximating a Bar Chart
接着我们来看如何近似一个直方图,直方图的理论依据在大数定理中已经进行了证明,今天我们来看如何用连续分布的p.d.f.来近似一个直方图。
同样,直方图的面积对应的就是概率(高度和面积一样,因为宽度是1)但是我们和上面的处理方法不同,前面的处理方法是从整数到下一个整数,对应一个概率,这里改成从负半个整数到正半个整数作为一个概率,所以根据坐标来求和,区间 $[a-\frac{1}{2},b+\frac{1}{2}]$ 上条形图的面积近似于积分结果:
$$
Pr(a-\frac{1}{2} < Y < b+\frac{1}{2})=\int^{b+\frac{1}{2}}_{a-\frac{1}{2}}g(x)dx
$$
这个相比于 6.4.2 叫做连续性修正。当然修正后的更准确一些,从图像也能看出来,或者模拟实验也能得出结果。
有了上面的修正结论,我们就可以对第一个例子进行优化了。
比如我们用 $Pr(Y\leq x+0.5)$ 来替代 $Pr(Y\leq x)$ 来近似 $Pr(X\leq x)$ ,
或者用 $Pr(Y\leq x-0.5)$ 来替代 $Pr(Y\leq x)$ 来近似 $Pr(X\leq x)$ 都能得出优于前面的结论,但是图像会变成这样:
移动后的连续分布更能近似不移动的分布
总结
一个只能取整数的离散随机变量,用正态分布来近似某个区间,如果按照整数进行分段(如 $[2,3)$),近似效果不如半个整数分段(比如 $[1.5,2.5)$ ).
本文为概率论初级博客的收官之作,主要讲如何用连续分布来近似离散分布,这个也是要在统计中使用的技术,或者直接叫做拟合或者回归也可以,所以可见我们后面这些课都是为了为数理统计铺路的,至此概率论讲解完毕,我们继续我们的学习路线!加油。