传说中的贝叶斯统计的由来是什么?
英国学者托马斯·贝叶斯在《论机会的解决》中提出了一种归纳推理理论,后来被一些统计学家发展成为一种系统的统计推断方法,称为贝叶斯方法。用这种方法进行统计推断得到的所有结果都构成了贝叶斯统计的内容。认为贝叶斯方法是唯一合理的统计推断方法的统计学家形成了数理统计的贝叶斯学派,这可以追溯到20世纪30年代。到20世纪五六十年代,它已经发展成为一个有影响力的学校。如今,它的影响力正在扩大。
中文名Bayes Statistics mbth Bayes Statistics提出者托马斯·贝叶斯提出时间1763并翻译贾乃光。
目录
1的技术原理
先验分布
后验分布
2理论争议
3发展历史
技术原理编辑器
先验分布
它是总体分布参数θ的概率分布。贝叶斯学派的根本观点是,在任何关于θ的统计推断问题中,除了样本X提供的信息外,还必须为θ指定一个先验分布,这是推断中不可缺少的因素。贝叶斯学派将先验分布解释为采样前关于θ的先验信息的概率表达式。先验分布不必具有客观基础,而是可以部分或完全基于主观信念。
比如,一个嫌疑人得了A病,看病时医生给他测了体温、血压等指标,结果构成样本x .引入参数θ:生病时θ= 1;无疾病时,θ=0。X的分布取决于θ是0还是1,所以知道X有助于推断θ是不是1。按照传统(频率)派,医生诊断时只使用X提供的信息;贝叶斯学派认为,只有将0到1之间的一个数p指定为事件的先验概率{θ=1},才能推断出A是否有病(即θ是否为1)。数字p描述了这个问题的先验分布,可以解释为疾病a的发生率,先验分布的规则对推断结果有影响。例如,在这种情况下,如果疾病A的发生率很小,只有当样本X显示出有力的证据时,医生才会倾向于诊断疾病A。先验分布的使用在这里看似合理,但贝叶斯学派基于“P是发生率”的解释并没有使用。事实上,即使我们对这种疾病的发病率一无所知,我们也必须规定这样一个P,否则问题无法解决。
后验分布
根据样本X的分布Pθ和θ的先验分布π (θ),在已知X=x的条件下,通过概率论中求条件概率分布的方法,可以计算出θ的条件分布π(θ|x)。因为这个分布是抽样后得到的,所以叫做后验分布。贝叶斯学派认为这种分布综合了样本X和先验分布π (θ)提供的相关信息。抽样的全部目的是完成从先验分布到后验分布的转换。举个例子,如果p=P(θ=1)=0.001,π(θ=1|x)=0.86,贝叶斯学派的解释是:在A的指数未测出之前,他患病的概率设定为0.001,而在得到之后,计算后验分布的公式本质上就是概率论中著名的贝叶斯公式(见概率),这是前面提到的贝叶斯1763那篇文章的重要内容。
贝叶斯推断方法的关键是任何推断都必须基于后验分布π(θ│X),不能再涉及X的样本分布Pθ。
比如在奈曼-皮尔逊理论中(见假设检验),为了确定α水平检验的临界值c,必须考虑X的分布Pθ,这在贝叶斯推断中是不允许的。但是贝叶斯推理在如何使用π(θ│X)上有一定的灵活性。例如,对于θ的点估计,可以使用关于θ的后验分布密度h(θ|X)的最大点,也可以使用π(θ|X)的均值或中值(见概率分布)。为了估计θ的区间,我们可以取区间[A(X),B(X)]使得π(A(X)≤θ≤B(X)│X)等于数字1-α(0 <;α& lt;1),在此条件下,区间长度B(X)-A(X)最小。要检验假设H:θ∈ω关于θ,我们可以计算ω的后验概率π(ω|X),然后计算后验概率π (ω │ x)<在1/2拒绝H。如果是统计决策问题(见统计决策理论),有一定的损失函数L(θ,α)。知道了π(θ|X),我们就可以计算出每个动作α的后验风险,即L(θ,α)在后验分布π(θ|X)下的数学期望,然后选择动作α使这个期望最小,这就是贝叶斯统计中的“后验风险”。
理论争议编辑
贝叶斯学派和频率学派争论的焦点在于先验分布的问题。所谓频率学派,是指统计学家坚持概率的频率解释而形成的学派。贝叶斯学派认为先验分布可以是主观的,它没有频率解释,也不需要。但是,频率学派认为,只有当先验分布具有主观意义,并且可以根据适当的理论或过去的经验来确定时,才允许在统计推断中使用先验分布,否则就会失去客观性。另一个批评是,贝叶斯方法对任何统计问题给出了程式化的解决方案,导致人们机械地套用公式,而不是深入分析问题。贝叶斯学派认为:理论上可以证明,在一定的条件下,任何合理的优良准则一定是对应于某种先验分布的贝叶斯准则,所以每个统计学家都是自觉不自觉的“贝叶斯”。他们认为,频率学派表面上不使用先验分布,但得到的解仍然是某种先验分布下的贝叶斯解,这种潜在的先验分布可能比精心选择的主观先验分布更不合理。其次,贝叶斯学派也认为,贝叶斯方法对统计推断和决策问题给出了程式化的解决方案是优点,而不是缺点,因为它消除了求抽样分布的数学难题(见统计学)。而且,这种程式化的解决方案不是机械的公式,它需要人们在先验分布和损失函数的选择上做大量的工作。另外,贝叶斯学派认为贝叶斯方法得到的解不需要频率解释,所以即使使用一次也是有意义的。另一方面,根据概率的频率解释提供的解只有在大量使用时才有意义,这往往不符合实际应用。这两个学派之间的争论是战后数理统计发展的一个特点。这个争论远没有解决,而且对以后数理统计的发展有影响。
开发历史编辑器
贝叶斯统计的历史可以追溯到16世纪。在1713中,詹姆斯·伯努利意识到了可以在机会游戏中使用的演绎逻辑与日常生活中的归纳逻辑之间的区别,他提出了一个著名的问题:前者的机制如何帮助处理下面的推理?Thomas Bayes(1702-1761)是长老会牧师。他对这个问题非常感兴趣,并进行了认真的研究。在此期间,他写了一篇文章回答伯努利的问题,并提出了一个以他的名字命名的公式:贝叶斯公式。然而,直到贝氏去世,他的朋友理查德·普莱斯才在1763发表了这篇文章,为伯努利问题提供了答案。这篇文章标志着贝叶斯统计的出现。然而,贝叶斯统计的思想在一开始并没有受到重视。后来,拉普拉斯本人重新发现了贝叶斯公式,并且阐述得比贝叶斯更清楚。由于贝叶斯统计对概率的看法过于主观,与当时的主流统计观点相悖,很难用当时严谨的数学理论来解释。
比如贝叶斯统计中先验概率的观点,一直是贝叶斯统计学派和非贝叶斯统计学派争论的焦点之一。在历史上,贝叶斯统计长期被当时的主流数学家所排斥。例如,现代杰出的统计学家R. A. Fisher就是贝叶斯统计的反对者。但随着科学的进步,贝叶斯统计在实际应用中的成功,逐渐改变了人们的看法。贝叶斯统计越来越受到人们的重视,已经成为统计学的一个研究热点。
自贝叶斯撰写的回答詹姆斯·伯努利问题的论文,提出著名的贝叶斯统计思想以来,经过几百年的发展,已经出现了许多关于贝叶斯统计的论文和学术专著。贝叶斯统计的权威著作是詹姆斯·o·伯杰的著作:《统计分析与贝叶斯分析》。国内有一本中译本:统计决策理论与贝叶斯分析,贾乃光译,吴希之译,中国统计出版社出版。