机器学习三要素:模型、目标、算法,model cost function
著作权归作者所有。
商业转载请联系作者获得授权,非商业转载请注明出处。
作者:周小涛
链接:http://www.zhihu.com/question/24900876/answer/65176508
来源:知乎
商业转载请联系作者获得授权,非商业转载请注明出处。
作者:周小涛
链接:http://www.zhihu.com/question/24900876/answer/65176508
来源:知乎
Linear Regression的cost function是最小二乘,即
但是Logistic Regression的cost function却是
为什么Logistic Regression不使用最小二乘做cost function呢?
答案是各自的响应变量
服从不同的概率分布。
在Linear Regression中,前提假设是
服从正态分布,即
,而Logistic中的
是服从二项分布的,即
。(为什么不服从正态?因为
非0即1啊!)
因而,在用极大似然估计计算时,所得到的cost function自然是不一样的。(可自行推导)
然而,只有目标是没用的,我们还要有方法来达到目标,这里的方法就是上述的 算法——最优化算法。包括常用的梯度下降法(最速下降法)、牛顿法、拟牛顿法等。这样,一个机器学习算法就算完整了,因为可以用这些最优化算法来
求出
。

但是Logistic Regression的cost function却是
![J(\theta)=\sum_{i=1}^m[y^{(i)}logh_\theta(x^{(i)})+(1-y^{(i)})log(1-h_\theta(x^{(i)}))]](https://i-blog.csdnimg.cn/blog_migrate/a8a34845121d0de81b31834cb3adffc1.png)
为什么Logistic Regression不使用最小二乘做cost function呢?
答案是各自的响应变量

在Linear Regression中,前提假设是





因而,在用极大似然估计计算时,所得到的cost function自然是不一样的。(可自行推导)
然而,只有目标是没用的,我们还要有方法来达到目标,这里的方法就是上述的 算法——最优化算法。包括常用的梯度下降法(最速下降法)、牛顿法、拟牛顿法等。这样,一个机器学习算法就算完整了,因为可以用这些最优化算法来

