什么是正态分布?

正态分布的概念最早由法国数学家德·莫伊弗尔于1733年提出,后由德国数学家高斯首次应用于天文研究,故又称高斯分布。高斯的工作对后世影响很大,他同时给它起了“高斯分布”的名字。也正是因为这项工作,后人将最小二乘法的发明权归于他。?而高斯头像的德国10 DM纸币,也印着正态分布密度曲线。这传达了一个思想,在高斯所有的科学贡献中,这是对人类文明影响最大的一个。在高斯发现之初,也许人们只能从其理论的简单化来评价其优越性,其充分的影响并不能完全看到。直到20世纪,正态小样本理论才完全发展起来。拉普拉斯很快了解了高斯的工作,并立即将其与他的中心极限定理联系起来。为此,他对即将发表的一篇文章(发表于1810)做了一点补充,指出如果误差可以看作是许多量的叠加,根据他的中心极限定理,误差应该具有高斯分布。这是历史上第一次提到所谓的“元误差理论”——误差是各种原因导致的大量元误差的叠加。后来,在1837中,G .哈根在一篇论文中正式提出了这个理论。

事实上,他的形式有相当大的局限性:哈根把误差想象成大量独立同分布的“元误差”之和,每个元误差取两个值,其概率为1/2。由此,根据德·莫伊弗尔中心极限定理,立即得出误差(近似)服从正态分布的结论。拉普拉斯指出的这一点意义重大,因为他对正常的误差理论给出了更自然、更合理、更有说服力的解释。因为,高斯的说法有点循环论证的味道:因为算术平均优秀,所以推演误差必须服从正态分布;另一方面,从后一个结论推导出算术平均和最小二乘估计的优越性,所以必须把其中一个(算术平均的优越性和误差的正态性)作为出发点。然而,没有理由自行建立算术平均数。以此作为理论上预设的起点,最后还是有不足之处的。拉普拉斯的理论对于把这个断裂的环节连接起来,使之成为一个和谐的整体具有重要意义。