Abstract: 本文作为第六章的开篇主要介绍第六章我们要研究的内容
Keywords: Large Random Samples
大样本介绍
身着简陋而举止优雅,身着华丽而举止粗俗,比选其一的话,我更愿意尊重第一种类型。
本章我们介绍一些近似的结果,简化大量随机样本的分析。
大样本介绍 Introduction
本文通过两个例子来举例两个不同的分析方向,并有不同的分析工具。
🌰 :
扔一个硬币,你可能感觉出现正反面的概率基本相同,也就是出现正面的概率大概是 12 ,然而,当你扔10次,出现五次正面的可能性不一定很大。如果你扔100次,也不一定出现正好的50次正面。多次扔硬币的过程可以通过我们前面介绍的二项分布来建模,参数是扔硬币的次数 n 和正面出现的概率 12 。那么上述两种情况的概率:
Pr(X=5)=(105)(12)5(1−12)5=0.2461
100次其中50次的概率
Pr(Y=50)=(10050)(12)50(1−12)50=0.0796
可见在一定次数 n 的独立实验中,出现 n/2 的次数的概率并不大,并且试验次数越多,这个概率越小。
但是如果我们把这个概率稍微移动一下,产生一个区间,那么这个概率会急剧上升。
Pr(0.4≤Y100≤0.6)=Pr(40≤Y≤60)=60∑i=40(100i)(12)i(1−12)100−i=0.9648
即使n不大的到时候
Pr(0.4≤X10≤0.6)=Pr(4≤X≤6)=6∑i=4(10i)(12)i(1−12)10−i=0.6563
可见,同样的独立试验次数n越大的时候,在 12 附近(比如 [0.4,0.6]) 的概率越大。
上述例子简单就简单在每次试验都是独立的伯努利分布,且概率固定。接下来这个例子稍微复杂一点。
🌰 :
一个队列的客户,第 i 个客户在队列中等待 Xi 其是随机变量,假设 X1,X2,… 是i.i.d的,其是 [0,1] 上的均匀分布,等待的期望是 0.5,所以当用户样本数量足够大的时候这些样本的均值越接近0.5 。但是多个样本的均值的分布其实是很复杂的,可能没办法准确的描述多个样本的均值与0.5的接近程度。
大数定理会给出数学基础来证明一些随机变量的大量样本的均值,接近于他们的期望。
中心极限定理来给出样本的均值来近似期望的概率。
总结
本文给出本章的研究方向,和基本研究背景。
v1.5.2