【数理统计学简史】 介绍

数理统计学简史 介绍

“统计思想,包含世界观——他是看待世间万物的一种方法或技术”

导言

本系列的博客的全部主要信息都来自陈希孺老师的《数理统计学简史》
本系列写历史,是想给大家讲述下学科内涵,毕竟研究机器学习就是在研究数理统计,从数理统计的逻辑里,也能找到不少机器学习的新思路,个人认为,机器学习人工智能的未来突破只能在数学和生理学中寻找,自然界给出的智慧并不是我们调参数改模型能达到的。所以我们更需要学习写能启发我们灵感,解放思想的东西,学习历史能使所有知识得到连贯,也能对整个学科有更深刻的认识。
《不列颠百科全书》的说法,统计学,也就是数理统计,“是搜集和分析数据的科学与艺术”。说是艺术,也不是让你唱歌跳舞,就像高德纳的那一摞计算机程序设计的艺术,我们并没有看到程序里有歌舞画作,而是算法本身的美感,这个仁者见仁智者见智,没有必要统一口径。
所以想要记住公式方法然后遇到问题套上去的人,可能就没法掌握精髓了。
我们的数理统计就是别的国家的统计,因为语言问题,我们的统计学是社会科学的学科,数学学科的只能改名叫数理统计了。西方的数理统计学的定义是概率数学理论基础的那一部分,也就是纯粹数学的部分。

收集分析数据

收集和分析数据,通常是指有效的方法,我们平时做机器学习的时候数据总是最重要的,数据从哪来,误差是什么,是否全部有效,无效的数据占多少,这些我们其实很少去了解,多半都是上来就清理数据,数字化,然后做特征,做分类。。。其实这是很机械化的,获取数据的方法有时候能使得数据呈现不同的信息,而这些信息有时候要使用不同的模型,分析数据指的的是精度和准确度,当你预测一个人的年龄,精度是指你给出的范围,如果你说一个人的年龄是0到1000岁,那么准确性肯定是百分之百,这种分析结果没意义,因为精度太低了,如果你说这个人在10到12岁之间,这显然精度就提高很多很多,但是你又没办法保证,随意你说他在10到12岁之间的概率是90%,这就是一个有效的分析,精度是 $[10,12]$ 准确度是 $90\%$ 显然这个比那个一千岁靠谱多了,并且一千岁可以理解为一个无效的分析。

预测不确定性

有人认为数理统计是处理随机和非随机数据的学科,陈老师说他不敢苟同,原因是统计学的一些方法利用到非随机数据的时候,比如你记录了你一个月的开销,你用平均数来表示多少,这里有统计学的方法——均值,但是没有统计学的问题,统计学的问题是要预测的,这个必须要深深的刻在脑子里,我们研究数理统计的对象:就是为了预测!

专业知识

我们收集和分析数据的目的是解决特定问题,必须得到一些结论,作为某些行动的依据和建议,但是必须指出,给出这些行动依据和建议完全只基于数据,数据来自的知识背景无关,比如新药试验,某种药A数据比B更漂亮,但是专业的医生说,不对啊,B中的某某成分更有效啊。。。这时候有两种选择,重新采集数据,做实验,或者再去研究你的专业知识,我们的数据并不能推到出那些成分有效,只能给出统计结果,A更有效,至于你接受与否,那是另一会儿事。
发生上述争端,做数理统计的人需要立刻离场,因为别事与你无关,你不走他就要跟你讨论,你又不懂别人的知识,所以还是离开,让他自己冷静冷静。

两点意义

  1. 数理统计方法是中立的,不偏向任何一方的工具,只根据数据说话,并且给出可信程度,信不信你说了算。任何人可以把数理统计运用到任何学科或者任何工程任何事情中去,当然你也可以对其进行否定,那你大可不用,但是如果任何人决定相信和使用数理统计这个工具,那么,请必须遵守数理统计的规则,包括数据采集分析等全部过程,这样得出的结论才会被数理统计学的定理所支持。
  2. 数理统计只是数据表面的关系,不能证明事情的因果。著名的例子就是吸烟和肺癌的关系,数字层面只能说统计出来的结果是有关系,但实际有没有关系需要医学给出严格的理论,这个只能说是数字上的,因为我们无法排除其他所有的影响,因为每个人都是不同的,环境,基因等,这些数据是没有考虑到数理统计过程中的。

不想说什么了

数理统计一直被批判,西欧有人从道德层面批评,说他抹杀了事物的本质
我们的特殊时期,就是那段疯狂的日子,说数理统计学抹杀事物本质,美化资本主义和丑化社会主义。
我想说,这都哪跟哪啊,当时说这话的人脑子里的东西到底是什么。
用上面的两点意义可以回应这些(不过当时似乎没人听你说什么),使数理统计学者能够站在一个超然的立场,避免陷入无畏的争论。

数理统计是数学

有人说统计不是数学,我刚开始学的时候也有这种感觉,数学证明,计算没有说给出哪个结论说这个可能是这样的,这明显就是没解决问题啊,但是数理统计比较例外,他就是这样给出结论的,机器学习和深度学习也是,给出个结果,还有可信度,但是从另一个角度,数理统计学不研究数据背后的知识,如医学,或者其他的,他只研究数字,抽象的数据。
数学研究数和形,本身就是虚无缥缈的问题,数学也不属于自然科学,如果说统计学不属于数学也行,不过数学和数理统计学共有的研究抽象性被否定,反正说数理统计学是数学的分支,问题不大,起码现在来看问题不大

本书(博客)的简介

第一章

早期发展,伯努利的《推测术》,主要说概率的基本概念和产生,惠更斯,帕斯卡和费马的通信,然后介绍伯努利的大数定理,作为数理统计的基础,这段历史很有意思。

第二章

依旧是概率论:二项分布正太逼近工作,但是引入了正态分布和中心极限定理!这个是数理统计的基石.怎么强调都不过分,所以我们来换个颜色。

第三章

贝叶斯学派的故事

第四章

最小二乘法的相关故事和重要作用

第五章

正态分布的历史,偏态分布的历史

第六章

社会统计,这个是国内的统计学习,在数理统计里面说这个,因为还是有些关系的。

第七章

回归的历史

第八章

小样本理论,和线性模型的发展

第九章

假设检验的历史

第十章

参数估计的历史

卷尾语

陈老师关于过去和未来的思考

总结

本系列以小短文的形式给出,字数会少很多,但是前后关联,应该很有趣。
巨人已逝,馈如此著作名篇,站在巨人之肩,我辈自当奋进。

说点什么

avatar
  Subscribe  
提醒

由于博客移至wordpress,部分公式和代码显示不正常,博主正在努力修改,如发现公式显示错误,请及时在文章下留言,感谢您的帮助,尽请原谅!