我们现在讨论的点估计问题,无论你用矩估计也好,用极大似然估计也好或其他方法也好,在我们心目中,未知参数θθ简单地是一个未知数,在抽取样本之前,我们对θθ没有任何了解,所有的信息全来自样本。
贝叶斯学派则不然,它的出发点是:在进行抽样之前,我们已对θθ有一定的知识,叫做先验知识。这里“先验”的意思并非先验论,而只是表示这种知识是“在实验之前”就有了的,也有人把它叫做验前知识,即“在实验之前”的意思。
贝叶斯学派进一步要求:这种先验知识必须用θθ的某种概率分布表达出来,这个概率分布就叫做θθ的“先验分布”或“验前分布”。这个分布总结了我们在实验之前对未知参数θθ的知识。
举一个例子,设某工厂每日生产一大批某种产品,我们想要估计当日的废品率θθ。该厂以前已生产过很多批次产品,如果过去的检验有记录在,则它确实提供了关于废品率θθ的一种有用信息,据此可以画出θθ的密度曲线。
图中,h(θ)h(θ)表示θθ的密度函数(0≤θ≤1)(0≤θ≤1)。图(a)表示一个较好的情况:h(θ)h(θ)在θ=0θ=0附近很大,而当θθ增加时下降很快。这表示该厂以往的废品率通常都很低。图(b)则表示一个不大好的情况:比较大的废品率出现的比率相当高。容易理解:这种关于θθ的历史知识(即先验知识),在当前估计废品率θθ时应当适当地加以使用,而不应弃之不顾。这种思想与我们日常处事的习惯符合:当我们面临一个问题时,除了当前的情况外,往往还要注意以往的先例和经验。
那么问题就来了:如果这个工厂以往没有记录,或甚至是一个新开工的工厂,该怎么办?贝叶斯统计有一个基本要求:你必须设法去定出这样一个h(θ)h(θ),甚至处于你自己的主管认识也可以,这是问题中一个必备的要素。正是在这一点上,贝叶斯统计遭到不少的反对和批评。
现在我们转到下一个问题:已定下了先验密度之后,怎样去得出参数θθ的估计?
设总体样本有概率密度f(X,θ)f(X,θ)(或概率函数,若总体分布为离散的),从这个总体中抽样本X1,⋯,XnX1,⋯,Xn,则这组样本的密度为f(X1,θ)⋯f(Xn,θ)f(X1,θ)⋯f(Xn,θ)。它可视为在给定θθ值时,(X1,⋯,Xn)(X1,⋯,Xn)的密度。那么(θ,