极大似然估计是一种参数估计的方法。已知某个事件已经发生,求导致该事情发生的概率最大的原因。
核心思想:找到参数 θ 的一个估计值,使得当前样本出现的可能性最大。
即联合概率最大,需要写出联合概率密度函数,即似然函数,求似然函数最大时参数的值
相当于求y最大时,x的值(凸函数,导数为0时,极值就是最值)
逻辑回归采用极大似然函数做为损失函数的原因:
一是梯度(偏导数)只与x,y相关,与sigmoid函数的梯度无关(最大为0.25,会导致参数更新慢)
二是极大似然函数为凸函数,局部最优解即为全局最优解(极值为最值),若采用平方损失函数,损失函数为theta的非凸函数,存在局部最优解