一直疑惑一个问题:对于最小二乘法,为什么不直接求导让导数为“0”,直接求极值呢?
因为实际情况有些是不可行的,比如有时候求解这样的方程非常复杂。。
所以有了梯度下降:详细请查看:http://blog.youkuaiyun.com/zengdong_1991/article/details/45563107
对于阿尔法的取值:查看:https://www.zhihu.com/question/54097634
这里举个例子:Y=X^2 使用通过梯度最小二乘法计算极值:
X=X-α2X ,假设随机x=5,假设α=1:
第一次迭代 x=5-10=-5,
第二次迭代 x=-5-(1*2*-5)=5
死循环,所以α 需要尝试从0.0001 到 1 去试验学习率