【数理统计学简史】1.7 伯努利大数定律

Abstract: 本文介绍《推测术》中最精华的第四部分,提出历史性结论——伯努利大数定律
Keywords: 大数定律,伯努利大数定律,《推测术》,强大数律,弱大数律,切比雪夫不等式

伯努利大数定律

现在我们就要详细说说《推测术》的第四部分,包含了我们现在称之为伯努利大数定律的部分。回到前面我们从箱子里面拿球的试验设计:箱子中有a个白球,b个红球, $p=\frac{a}{a+b}$ 有放回地从箱子中拿球 $N$ 次,记录拿到把球的次数为 $X$ 用 $\frac{X}{N}$ 去估计 $p$ ,这个看似简单且顺理成章的想法是现今数理统计学中最重要的基本方法之一。此处暗含了一个最重要的条件就是每次拿球,每个球被拿到的概率相等。
其实拿球这事不难,每次拿球每个球有相同概率被拿到这件事非常有难度,也就是产生概率相等的随机数的过程是非常难控制的,换句话说,你怎么就能保证你的每次操作对于所有球都是一视同仁的呢?从另一个角度来看,彩票抽奖的那个装置也是非常复杂的,才能保证近似等概率。统计学家在平时需要随机数的时候,他们回去用一个叫做随机数表的东西,是一本很厚的记录随机数(0到9),用所谓“充分随机”的方法产生的,但是必须注意,到目前位为止,人们并无一种可操作的方法实现绝对的等可能,所谓随机数也常被人称为 “伪随机数”。
伯努利想要证明:用 $\frac{X}{N}$ 估计 $p$ 可以达到事实上的确定性——他称之为道德确定性(上一篇说到的),其数学描述:任意给定两个数, $\varepsilon>0$ 和 $\eta>0$ ,总可以取足够大的抽取次数 $N$ 使得 ${|\frac{X}{N}-p|>\varepsilon}$ 的概率不超过 $\eta$ ,这个说法和极限的描述很类似,从字面上将就是 $p$ 和 $\frac{X}{N}$ 可以任意的接近,方法是通过增大抽取次数 $N$
显然这段话是我们用现代数学语言描述的,当年没有这么套路的说法,原著上伯努利用 $\frac{1}{a+b}$ 表示的 $\varepsilon$ ,也就是取样的结果 $\frac{X}{N}$ 和理论 $p$ 之间的绝对差距,小于 $\frac{1}{a+b}$ 这个换成 $\varepsilon$ 其实很容易,因为对于任意小的 $\varepsilon$ 我们可以通过调整箱子内球的数量来得到更小的的 $\frac{1}{a+b}$ 我们把 $a,b$ 扩大同样的倍数,比如 $ra,rb$ 这样整个实验是不变的 $p=\frac{ra}{ra + rb}$ ,但是 $\frac{1}{a+b}\to \frac{r}{ra+rb}$ 其次原著中要证明的是对于任意 $c>0$ ,只需要抽取次数 $N$ 足够大,可以得到:
$$
P{|\frac{X}{N}-p|\leq \varepsilon}>cP(|\frac{X}{N}-p|>\varepsilon)\tag{8}
$$
和我们前面用现代语言描述的也是一致的,因为:
$$
\begin{aligned}
cP(|\frac{X}{N}-p|>\varepsilon)&<P{|\frac{X}{N}-p|\leq \varepsilon}\\
&<\frac{1}{c+1}
\end{aligned}\tag{9}
$$

是不是看不明白 $c+1$ 哪里来的?
$$
P{|\frac{X}{N}-p|\leq \varepsilon}+P{|\frac{X}{N}-p|> \varepsilon}=1\\
P{|\frac{X}{N}-p|\leq \varepsilon}>cP(|\frac{X}{N}-p|>\varepsilon)\\
$$
等式带入不等式就能得到结论了。

这样如果取 $c$ 充分大可使它小于 $\eta$ 。另外要指出的是:伯努利使用的这个箱子模型使被估计的 $p$ 值只能取有理数,所以这对普遍性是个问题,但是其证明对任意 $p$ 都是有效的,所以这个试验的漏洞也就可以被忽略了。
伯努利当时比较高明的一点是他描述这个问题的时候用了(8)式,如果用他这个描述,我们用现在的的描述方法是——当N充分大,$\frac{X}{N}$ 和 $p$ 可以任意接近:
$$
lim_{N\to \infty}\frac{X}{N}=p\tag{10}
$$
上面这种现代写法在当时看有些问题的,因为我们不能排除从箱子里拿球的时候每次都拿到白球,这时候 $\frac{X}{N}=1$ 不能收敛到一个小于1的 $p$ 所以这种提法在伯努利时代可能真的解决不了,当时还没有抽象到这个层次,毕竟当时微积分也才刚刚出现。
上面这个结论是对的,1909年波莱尔证明了其正确性,证明难度比伯努利的描述难很多。波莱尔的结论比伯努利强,所以叫做强大数定律,伯努利的则称为弱大数定律。
接下来是详细的证明过程,这里先不写详细的,只写思路,因为虽然是伯努利给出的证明,但是以我的智力只能看懂一部分,为了不打消大家的积极性,我决定忽略详细过程,只介绍一点基础的,有兴趣的同学可以参考《数理统计学简史》第24页。
伯努利用的是直接估计法:

  • 首先设一个 $A_0=P(N_p<X<N_p+N_{\varepsilon})$
  • 然后写一个递推关系 $A_k=P(N_p+kN_{\varepsilon}<X<N_p+(k+1)N_{\varepsilon}),k=1,2,\dots$
  • 这样只需要证明 $N$ 充分大的时候 $A_0\geq c(A_1+A_2+\dots)$
  • 这样就可以得到 $X> N_p$ 的一边,同理可以得到另一边。

这是大概的证明过程,可以得到(8)中的结论。
顺带的指出,可以把伯努利的结论(9)引申一点,如果我们知道箱子中球的总数也就是 $a+b$ 的值,或者知道 $a+b$ 不超过某个值 $M$ ,则可以把(9)式(书上写的是(3)式,应该是笔误)改进成——找到一个 $p$ 的估计 $\hat{p}(X)$ 而不是 $\frac{X}{N}$ ,当 $N$ 充分大时有:
$$
P(\hat{p}(X)\neq p)<(c+1)^{-1}
$$
但是如果 $a+b$ 的值没有范围,这个结论就不成立了,证明也在书上,更加复杂,这里也不写了,想知道的同学可以参考数理统计学简史》第25页。
其实我们可以想想,我们讲了半天,都在说 $N$ 在达到一定大小的时候,比例会接近某个概率,我们和伯努利都有一个问题就是,N到底要多大,是否有下界,在指定的精度 $\varepsilon$ 下得出这个下界。并且可靠度不能超低于 $1-(c+1)^{-1}$ 他证明了以下的结果,定义:
$$
m_1=\text{ 不小于 } \frac{log[c(b-1)]}{log(a+1)-log(a)}\text{ 的最小整数 } \\
m_2=\text{ 不小于 } \frac{log[c(a-1)]}{log(b+1)-log(b)}\text{ 的最小整数 } \\
N_1=\frac{m_1(a+b)+b(a+b)(m_1-1)}{a+1}\\
N_2=\frac{m_2(a+b)+b(a+b)(m_2-1)}{b+1}
$$
则取 $max{N_1,N_2}$ 能满足 (9) 式,伯努利给了若干数字例子,比如:$a=30,b=20(p=\frac{3}{5}),\varepsilon=\frac{1}{50},c=1000$ 使用上面的结论, $N$ 至少是 25550 ,我们在基础概率论中介绍过切比雪夫不等式,也是给出N的参考值的,但是在同精度下,伯努利给出的N的大小比切比雪夫不等式给出的N小20多倍,但是这个25550这个数还是太大,当时美国一个中等城市人口也就几千人,所以学者斯蒂格勒认为,伯努利之所以长期没发布结果,是觉得这个数太大,他想找到更小的。
但是现在我们已经不关注这些地方了,大家都公认,由伯努利工作发端的大数定律已经成为整个数理统计学的基础,人们也对伯努利工作的哲学意义给予极高的评价,斯蒂格勒指出,伯努利证明了数学家不仅可以后验的认识世界,还可以用数学取菇凉他们的知识的限度。伯努利在结束《推测术》时就其结果的意义做出如下表述:

如果我们能把一切事物永恒的观察下去,则我们终将发现:世间的一切事物都受到因果律的支配,而我们也注定会在种种及其纷繁杂乱的事项中认识到某种必然。

怎么样,像哲学吧,其实是数学家说的!哈哈。
然后就是关于 $N$ 到底还能不能小一点。

  1. 1713年 伯努利的侄儿,尼古拉斯·伯努利在给有人的信件中报告了一个他的结果,比伯努利的结果有所改善
  2. 1733年 狄莫弗发展了用正态分布逼近二项分布的方法,这是一个意义深远的改进,我们在第二章中学习,将N继续缩小到越 6600,这已经没什么改进余地了,但还是不小。

显然大自然不想让我们轻易的看清他的面貌,这个例子也告诉我们,在平时的书刊杂志小软文中根据一个小样本得到的某种特征的比例,作为大群体中该特征的估值,其准确度和可靠性,通常还没有没什么统计学知识的公众所认为的(主观概率)准确。所以可以对他们给出的结论,看看就好,别当真。

总结

本问是第一章最后一篇,大数定律影响了我们整个学科,对后世影响深远。
今天是高斯的诞辰,我辈继续努力吧。

0%