总结|概率论与数理统计的前世
统计学是一门年轻的科学。人类的统计实践是随着计数活动而产生的,所以统计发展的历史可以追溯到古代原始社会,也就是五千多年前。但能使人类的统计实践上升到理论总结的高度,即开始成为系统的科学统计学,只有短短300多年的历史,却是近代的事情。统计发展的概况大致可以分为三种形式:经典的记录统计、现代的描述统计和现代的推断统计。
进入20世纪以来,随着科学技术的飞速发展,社会发生了巨大的变化,统计学也进入了一个快速发展的时期。一些科学家甚至称我们的时代为“统计时代”。显然,统计科学在20世纪的发展及其未来被赋予了划时代的意义。
16世纪?意大利学者gerolamo cardano(1501 . 9 . 24-1576 . 9 . 21)开始研究骰子等赌博中的一些简单问题。他是古典概率论的创始人。
1646法国数学家布莱士·帕斯卡(1623 . 6 . 19-1662 . 8 . 19)和法国数学家皮耶·德·费玛(1601 . 8 . 17-1665 . 1.12)。他们一起解决了一个上流社会的赌徒和业余哲学家送来的问题。他想不通为什么在某个组合中掷出三个骰子总是输钱。在解决这个问题的过程中,建立了概率论和组合论的基础,得到了一系列解决概率论问题的方法,奠定了现代概率论的基础。
1713年,瑞士数学家雅各布·伯努利(1654.12.27-1705 . 8 . 16)出版了他的遗书《猜想》,在书中他提出了概率论中的第一个。他是使概率论成为数学分支的创始人。后来,俄罗斯数学家和力学家切比雪夫(пант?тий Льво?виччебышёв,1821 . 5 . 26-1894.12.8)。
1733年,德国数学家、天文学家德·莫伊弗尔(1667 . 5 . 26-1754.11.27)研究了伯努利大数定律中的情况,他推导出了递进公式(也叫斯特林公式)。后来,这个结果被皮埃尔·西蒙·拉普拉斯推广到一般情况。后人称之为“德莫维尔-拉普拉斯中心极限定理”,这是概率论史上的第二个极限定理,也是第一个中心极限定理。
1763年,英国数学统计学家托马斯·贝叶斯(1702-1761)发表了贝叶斯统计理论。同年,理查德·普莱斯整理出版了贝叶斯结果,提出了“贝叶斯公式”。贝叶斯是对概率论和数理统计的早期发展有重要影响的两位人物之一(另一位是布莱士·帕斯卡)。
1809德国数学家约翰·卡尔·弗里德里希·高?,1777 . 4 . 30-1855 . 2 . 23)发表了《天体绕日运动理论》,其中有一节是关于“数据组合”的。在这一节中,他论述了误差分布的理论,并在此过程中独立推导出“正态分布”,推广了正态分布的应用。同年,高斯提出了“最小二乘法”。
1812年,法国著名天文学家、数学家皮埃尔-西蒙·德·拉·普莱斯侯爵(1749.3.23-1827.3.5)发表了《概率分析论》。在这本书中,他首次明确定义了概率的经典定义(通常称为“经典概率”),并引入了概率论中更为有力的分析工具,如“差分方程”和“生成函数”,从而实现了概率论从简单的组合运算向解析方法的过渡,将概率论推向了一个新的发展阶段。
1821年,德国数学家高斯提出了正态分布的“极大似然估计”。
20世纪20年代芬兰数学家jarl Waldemar Linde Berg(1876 . 8 . 4-1932.12.12)和法国数学家保罗·皮埃尔·莱维(1886-1971)证明了样本均值的极限分布是正态分布,称为“Lindeberg-Lévy中心极限定理”。
1837年,法国数学家西米恩·丹尼斯·泊松(1781 . 6 . 21-1840 . 4 . 25)首先提出了“泊松分布”。这种分布在早些时候由伯努利家族描述过。
1863年,阿贝首次提出χ?分布后来被Hermert和现代统计学的创始人之一karl pearson分别在1875和1900推导出来。
1875?英国科学家、探险家弗朗西斯·高尔顿(1822 . 2 . 16-1911.17)在朋友的帮助下,在香豌豆上做了一个实验。通过分析获得的数据,他终于。
1888?弗朗西斯·高尔顿提出了“相关指数”的概念,并在此基础上发展了一种用图形来估计相关系数的方法。同年,他在一篇论文中给出了第一个关于“相关系数”的官方数字,从定量的角度描述了两个变量之间的相关程度。
19世纪下半叶,俄罗斯彼得堡学派引入了“随机变量”。这标志着概率论从古典概率时期向现代概率时期过渡。
1895?统计学家卡尔·皮尔逊(1857 . 3 . 27-1936 . 4 . 27)首先提出了“偏度”。
1900年,德国数学家戴维·希尔伯特(1862-1943)提出建立概率的公理化定义,以解决适用于所有随机现象的概率的最一般定义。
1900年,英国数学家、生物统计学家卡尔·皮尔逊(1857 . 3 . 27-1936 . 4 . 27)提出了替换原理,由此原理得到的估计量就成了“矩估计”。同年,他引入了著名的χ?拟合优度测试”。卡尔·皮尔逊是20世纪统计学的伟大创始人,被称为20世纪统计学之父。他的工作在描述统计学发展到推断统计学的历史阶段中起到了承上启下的作用,为统计学的快速发展奠定了坚实的基础。
1901年?卡尔·皮尔逊(Karl pearson)提出了“主成分分析”(多元统计分析的经典方法),但它只针对非随机变量。1933被美国公认的统计学、经济学和数学大师哈罗德·霍特林(1895-1973)推广到随机变量。
1905?统计学家卡尔·皮尔逊(1857 . 3 . 27-1936 . 4 . 27)首次提出峰度。(S:不知道大家有没有注意到其中的小聪明。Pearson在10年前首先提出偏度,然后提出矩估计,χ?经过拟合优度检验和主成分分析,提出了峰值状态。是什么启发皮尔森想到了偏态?值得深思。)
20世纪初,卡尔·皮尔逊(K. karl pearson)提出了“假设检验”,后经费希尔完善,最终由尼曼和皮尔逊(E.Pearson)提出了相对完整的假设检验理论
1908年,英国统计学家戈塞特在《生物统计学》杂志上以“学生”为笔名发表了一篇论文,这篇论文让他在统计学史上名声大噪:均值的概然误差。本文提出了“t分布”。t分布的发现在统计史上具有划时代的意义,它打破了正态分布一统天下的局面,开启了小样本统计推断的新时代。后来Fisher注意到了自己证明中的破绽,在1922中给出了这个问题的完整证明,并编制了T分布的分位数表。
1909 -1920丹麦数学家和电气工程师A.K.Erlang用概率论的方法研究了电话交谈,首创了“排队论”。
1920为了更准确地估计随机序列的发展变化规律,从20世纪20年代开始,学术界就开始运用数理统计原理对时间序列进行分析。研究的重点从总结表面现象转向分析序列值的内在关系,从而开辟了一门应用统计学学科——“时间序列分析”。
1922年,R.A.Fisher正式提出“充分统计”,其思想源于他与天文学家爱丁顿关于估计的标准差的争论。同年,他在高斯1821年的基础上再次提出了“极大似然估计”的思想并证明了它的一些性质,使极大似然法得到了广泛的应用。
1924年,贝尔实验室的沃尔特·a·沃特·A·休哈特博士在给上级的备忘录中提出了使用“控制图”的建议。“质量控制图”是一种应用统计原理控制产品质量的图形方法。他是统计质量控制之父(SQC)。
1924?英国统计学家、遗传学家、现代统计科学创始人罗纳德·艾尔默·费希尔(1890-1962)提出了“f分布”,并以其姓氏的第一个字母命名。后来,他提出了“方差分析”(ANOVA)。
罗纳德·艾尔默·费希尔(1890-1962)补充了卡尔·K·皮尔逊(karl K.Pearson)介绍的拟合优度检验?。也就是在实际问题中,有时候一切都取决于k个未知参数,然后皮尔逊定理又成立了。Fisher证明了在相同条件下,可以先用MLE方法估计k位置参数,然后再计算估计值。此时,相似统计量逐渐服从卡方分布,但自由度为r-k-1。
1928年,Neyman和E.Pearson提出了“似然比检验”,这是一种被广泛使用的检验方法,它在假设检验中的地位就像是MLE在点估计中的地位。
1929苏联数学家亚历山大·雅科夫列维奇·钦钦(алекса?ндр Я?ковлевич Хи?нчин,1894 . 7 . 19-1959 . 11.18)在相同分布条件下推广了切比雪夫大数定律,称为“辛”。
在1929中,Baehrens提出了如果没有信息,查找的精确置信区间,M和N都不太大。这是历史上著名的“伯伦斯-费雪问题”。
1933年,苏联数学家安德雷·柯尔莫哥洛夫(1903 . 4 . 25-1987 . 10.20)在测度论的基础上建立了概率论的严格公理体系。使之像微积分一样成为一个严格的数学体系,同时这个体系包含了经典意义上和统计意义上的定义,所以既满足了数学本身的需要,又适应了自然科学乃至工程技术的要求。
1933?美国数理统计学家、经济学家哈罗德·霍特林(1895—1973)最早提出“主成分分析”。这是一种降维的思想,一种在损失很少信息的前提下,通过正交旋转将多个指标转化为若干个综合指标的多元统计分析方法。
1934年,美国统计学家j .奈曼(1894–1981)创立了严格的区间估计理论——“置信区间”。置信系数是该理论中最基本的概念。根据一定的准确度和精度要求,通过从总体中抽取的样本构造一个合适的区间,作为总体的分布参数(或参数的函数)真值范围的估计。
印度著名统计学家马哈拉诺比斯(1893-1972)提出了马哈拉诺比斯距离。
1938 H. Wold在他的博士论文《统计时间序列分析中的研究》中提出了著名的“Wold分解定理”,即对于任何离散平稳过程{},都可以分解为两个不相关的平稳序列之和,其中一个是确定性的,另一个是随机性的。这个定理是现代时间序列分析理论的灵魂。Cramer在1961中证明了这种分解思想也可以用于非平稳序列。克莱姆分解定理表明,任何序列的波动都可以看作是同时受到确定性和随机性的影响。
1945年,威尔科克森(F . Wilcoxin)建立了“秩统计量”。秩和检验,也称为序列和检验,是一种非参数检验。它不依赖于总体分布的具体形式,应用时不考虑所研究对象的分布情况,也不考虑是否已知,因此具有实用性。
在1950中,E.L. Lehmann和H. Scheff提出了“完全统计量”的概念,给出了寻找可估函数(即参数函数无偏估计的存在性)的UMVUE的一个充分完整的统一度量方法,即“Lehmann-Scheff定理”。
在1955中,Stein证明了当维数p大于2时,正态均值向量的最小二乘估计不可容纳,即可以发现另一种估计在某种意义上一致优于最小二乘估计。
Lindley等人在1960中指出,当样本量足够大时,可以趋向于1,接近于0,即价值检验和贝叶斯检验得到的结论是相反的,所以也叫Lindley悖论。
在1965中,W.F.Massy根据多元统计分析中的主成分分析(PCA)提出了“主成分回归”。
1977?哈佛大学数学家A.P.Dempster等人提出了用最大似然估计隐变量概率模型参数的“EM算法”。
1995新西兰奥克兰大学的Ross Ihaka和Robert Gentleman用S语言(S语言是AT&编写的;t贝尔实验室(T Bell Laboratories)开发了一种用于数据探索、统计分析和绘图的解释性语言,并开发了一种新的系统。由于这两位科学家的首字母都是R,所以系统软件被命名为“R”。
剑桥大学:卡尔·皮尔逊、费希尔、弗朗西斯·高尔顿、马哈拉诺比斯
爱丁堡大学:托马斯·贝叶斯
巴黎理工大学:莫恩·丹尼斯·泊松,利维
卡昂大学:皮埃尔·西蒙·拉普拉斯
哥尼斯堡大学(现为康德波罗的海联邦大学):戴维·希尔伯特。
哥廷根大学:约翰·卡尔·弗里德里希·高斯(自18)
布伦瑞克技术大学:约翰·卡尔·弗里德里希·高斯(自14)
巴塞尔大学:雅各布·伯努利。
莫斯科大学:安德雷·柯尔莫哥洛夫、切比雪夫、亚历山大·雅科夫列维奇·钦钦
加州大学柏克莱分校:沃特·A·休哈特
华盛顿大学:哈罗德·霍特林
1,卡尔·皮尔逊是珂赛特的老师。珂赛特从1906到1907去卡尔皮尔森学习统计学,重点是对少量数据的统计分析。
2.高尔顿是卡尔·K·皮尔逊的老师。
参考资料:
[1]百度百科
[2]现代统计学发展的一条主线——卡尔·皮尔逊的生平、思想和成就。