谭升
非主流人工智能科学家 我和外面那些妖艳的货不一样

【数理统计学简史】 介绍

数理统计学简史 介绍

“统计思想,包含世界观——他是看待世间万物的一种方法或技术”

导言

本系列的博客的全部主要信息都来自陈希孺老师的《数理统计学简史》
本系列写历史,是想给大家讲述下学科内涵,毕竟研究机器学习就是在研究数理统计,从数理统计的逻辑里,也能找到不少机器学习的新思路,个人认为,机器学习人工智能的未来突破只能在数学和生理学中寻找,自然界给出的智慧并不是我们调参数改模型能达到的。所以我们更需要学习写能启发我们灵感,解放思想的东西,学习历史能使所有知识得到连贯,也能对整个学科有更深刻的认识。
《不列颠百科全书》的说法,统计学,也就是数理统计,“是搜集和分析数据的科学与艺术”。说是艺术,也不是让你唱歌跳舞,就像高德纳的那一摞计算机程序设计的艺术,我们并没有看到程序里有歌舞画作,而是算法本身的美感,这个仁者见仁智者见智,没有必要统一口径。
所以想要记住公式方法然后遇到问题套上去的人,可能就没法掌握精髓了。
我们的数理统计就是别的国家的统计,因为语言问题,我们的统计学是社会科学的学科,数学学科的只能改名叫数理统计了。西方的数理统计学的定义是概率数学理论基础的那一部分,也就是纯粹数学的部分。

收集分析数据

收集和分析数据,通常是指有效的方法,我们平时做机器学习的时候数据总是最重要的,数据从哪来,误差是什么,是否全部有效,无效的数据占多少,这些我们其实很少去了解,多半都是上来就清理数据,数字化,然后做特征,做分类。。。其实这是很机械化的,获取数据的方法有时候能使得数据呈现不同的信息,而这些信息有时候要使用不同的模型,分析数据指的的是精度和准确度,当你预测一个人的年龄,精度是指你给出的范围,如果你说一个人的年龄是0到1000岁,那么准确性肯定是百分之百,这种分析结果没意义,因为精度太低了,如果你说这个人在10到12岁之间,这显然精度就提高很多很多,但是你又没办法保证,随意你说他在10到12岁之间的概率是90%,这就是一个有效的分析,精度是 $[10,12]$ 准确度是 $90\%$ 显然这个比那个一千岁靠谱多了,并且一千岁可以理解为一个无效的分析。

预测不确定性

有人认为数理统计是处理随机和非随机数据的学科,陈老师说他不敢苟同,原因是统计学的一些方法利用到非随机数据的时候,比如你记录了你一个月的开销,你用平均数来表示多少,这里有统计学的方法——均值,但是没有统计学的问题,统计学的问题是要预测的,这个必须要深深的刻在脑子里,我们研究数理统计的对象:就是为了预测!

专业知识

我们收集和分析数据的目的是解决特定问题,必须得到一些结论,作为某些行动的依据和建议,但是必须指出,给出这些行动依据和建议完全只基于数据,数据来自的知识背景无关,比如新药试验,某种药A数据比B更漂亮,但是专业的医生说,不对啊,B中的某某成分更有效啊。。。这时候有两种选择,重新采集数据,做实验,或者再去研究你的专业知识,我们的数据并不能推到出那些成分有效,只能给出统计结果,A更有效,至于你接受与否,那是另一会儿事。
发生上述争端,做数理统计的人需要立刻离场,因为别事与你无关,你不走他就要跟你讨论,你又不懂别人的知识,所以还是离开,让他自己冷静冷静。

两点意义

  1. 数理统计方法是中立的,不偏向任何一方的工具,只根据数据说话,并且给出可信程度,信不信你说了算。任何人可以把数理统计运用到任何学科或者任何工程任何事情中去,当然你也可以对其进行否定,那你大可不用,但是如果任何人决定相信和使用数理统计这个工具,那么,请必须遵守数理统计的规则,包括数据采集分析等全部过程,这样得出的结论才会被数理统计学的定理所支持。
  2. 数理统计只是数据表面的关系,不能证明事情的因果。著名的例子就是吸烟和肺癌的关系,数字层面只能说统计出来的结果是有关系,但实际有没有关系需要医学给出严格的理论,这个只能说是数字上的,因为我们无法排除其他所有的影响,因为每个人都是不同的,环境,基因等,这些数据是没有考虑到数理统计过程中的。

不想说什么了

数理统计一直被批判,西欧有人从道德层面批评,说他抹杀了事物的本质
我们的特殊时期,就是那段疯狂的日子,说数理统计学抹杀事物本质,美化资本主义和丑化社会主义。
我想说,这都哪跟哪啊,当时说这话的人脑子里的东西到底是什么。
用上面的两点意义可以回应这些(不过当时似乎没人听你说什么),使数理统计学者能够站在一个超然的立场,避免陷入无畏的争论。

数理统计是数学

有人说统计不是数学,我刚开始学的时候也有这种感觉,数学证明,计算没有说给出哪个结论说这个可能是这样的,这明显就是没解决问题啊,但是数理统计比较例外,他就是这样给出结论的,机器学习和深度学习也是,给出个结果,还有可信度,但是从另一个角度,数理统计学不研究数据背后的知识,如医学,或者其他的,他只研究数字,抽象的数据。
数学研究数和形,本身就是虚无缥缈的问题,数学也不属于自然科学,如果说统计学不属于数学也行,不过数学和数理统计学共有的研究抽象性被否定,反正说数理统计学是数学的分支,问题不大,起码现在来看问题不大

本书(博客)的简介

第一章

早期发展,伯努利的《推测术》,主要说概率的基本概念和产生,惠更斯,帕斯卡和费马的通信,然后介绍伯努利的大数定理,作为数理统计的基础,这段历史很有意思。

第二章

依旧是概率论:二项分布正太逼近工作,但是引入了正态分布和中心极限定理!这个是数理统计的基石.怎么强调都不过分,所以我们来换个颜色。

第三章

贝叶斯学派的故事

第四章

最小二乘法的相关故事和重要作用

第五章

正态分布的历史,偏态分布的历史

第六章

社会统计,这个是国内的统计学习,在数理统计里面说这个,因为还是有些关系的。

第七章

回归的历史

第八章

小样本理论,和线性模型的发展

第九章

假设检验的历史

第十章

参数估计的历史

卷尾语

陈老师关于过去和未来的思考

总结

本系列以小短文的形式给出,字数会少很多,但是前后关联,应该很有趣。
巨人已逝,馈如此著作名篇,站在巨人之肩,我辈自当奋进。

Share

You may also like...

说点什么

avatar
  Subscribe  
提醒

试录了几节线性代数视频课程,欢迎大家支持,
点击试看
点击购买更多内容

由于博客移至wordpress,部分公式和代码显示不正常,博主正在努力修改,如发现公式显示错误,请及时在文章下留言,感谢您的帮助,尽请原谅!