PRML(P40) 考虑使用多项式 y(x,w)=w0+w1x+w2x2+...+wMxM=∑j=0Mwjxj 拟合给定数据,我们将w用概率p(w)表示,给定数据集D=t1,t2,...tn状态则可以用概率表示为p(D|w)。由贝叶斯公式 p(w|D)=p(D|w)p(w)p(D) p(w|D)可以用来表示w的不确定性。 上式中的右侧p(D|w)可以看作为D的数据或者向量W的表达,这里把W叫做似然函数,这样我们可以把等式右边看成两部分 posterior∝likelihood×prior D的分布可表示为 p(D)=∫p(D|w)p(w)dw 对应前文,等式右边的两项,一项是似然函数,一项是w的分布。当似然函数p(D|w)取最大时,w为最佳拟合。恰好在传统的机器学习框架里似然函数的负自然对数与误差函数等价。——负对数为单调递减,最大似然可使损失最小。