学概率论的时候不是多么用心,这部分也是随便看看,在此补上。
对似然函数(likelihood function)的理解,极大似然估计
- 大家都知道,概率是对要发生事件的结果的预测,而似然就是知道事件的结果对概率进行反推。在某个概率上,某事件最有可能发生。最大似然估计,就是某事件最有可能的那个概率(就是好多文章里面提到的参数)”。
- 来个好多文章里面的例子:抛硬币,首先条件,质量分布不均匀,抛的结果是2正1反,(抛正概率为p),p为多少最有可能出现这种情况。
y=p2(1−p),对y求导,就可得到相应的p=23y=p^2(1-p),对y求导,就可得到相应的p=\frac23y=p2(1−p),对y求导,就可得到相应的p=32
ps:大家都知道最有可能又不是一定是它,p=0.5 也可以出现这种情况。可是在样本足够多的时候,这就是答案了。
- 对数似然(方便求最大值)
好多文章都说,取对数不会影响y(likelihood function)的单调性, 所以在这里稍稍证明一下令y=f(x),取对数得到g(x)=log(f(x))令y=f(x),取对数得到g(x)=log(f(x))令y=f(x),取对数得到g(x)=log(f(x))g′(x)=1f(x)f′(x)在(0<f(x)<=1)对应的x区间单调性和g'(x)=\frac 1{f(x)}f'(x)在(0<f(x)<=1)对应的x区间单调性和g′(x)=f(x)1f′(x)在(0<f(x)<=1)对应的x区间单调性和f′(x)是一样的,所以放心的取对数吧f'(x)是一样的,所以放心的取对数吧f′(x)是一样的,所以放心的取对数吧
ps:log 的底可能是2,e,10,具体看上下文,此处为e
- 最大似然估计
可以发现,逻辑回归核心还是最大似然估计,找到使函数最大的参数。
最大似然估计的一般求解过程:
(1) 写出似然函数;
(2) 对似然函数取对数,并整理;
(3) 求导数 ;
(4) 解似然方程
和逻辑回归的步骤是不是很像。
在Andrew ng的课程里取对数后取了负,是为了使用梯度下降才这样的。 - one vs all
这是对多个feature进行LR处理的方法,feature数目n大于2时,把一个feature和其它所有feature组成二元。所以一共进行n次。

本文深入探讨了最大似然估计的概念,通过抛硬币实验解释了如何找到最有可能的概率参数。介绍了似然函数及其在极大似然估计中的应用,以及为何在求解过程中常取对数似然。
1万+

被折叠的 条评论
为什么被折叠?



