梯度下降(Gradient Decent)
主要参考资料:台大李宏毅教授的机器学习课程 B站视频
与之前我有讲过的EM算法类似,梯度下降算法同样是一个优化算法。它所要解决的问题是:
求得
θ ⋆ = arg min L ( θ ) \theta^{\star}=\argmin L(\theta) θ⋆=argminL(θ)
其中 θ \theta
本文介绍了梯度下降和随机梯度下降在机器学习中的应用,探讨了学习率的重要性,提到了Adagrad算法作为适应性学习率的例子,并对比了两者在计算效率上的区别。
主要参考资料:台大李宏毅教授的机器学习课程 B站视频
与之前我有讲过的EM算法类似,梯度下降算法同样是一个优化算法。它所要解决的问题是:
求得
θ ⋆ = arg min L ( θ ) \theta^{\star}=\argmin L(\theta) θ⋆=argminL(θ)
其中 θ \theta
5514
4787
220
4563

被折叠的 条评论
为什么被折叠?