1)关于梯度下降
学习速率α太大甚至会导致发散;(梯度会随着迭代逐渐增大以致发散)
学习速率α太小学习比较慢,但最终会收敛;
最后强调,只要α足够小,一定会收敛,且不必到后面人工减小α的值!(梯度会随着迭代逐渐减小)
2)矩阵讲了一下,但非常简单
Addition and Scalar Multiplication
Matrix Vector Multiplication
Matrix Matrix Multiplication
Matrix Multiplication Properties(不满足交换律、满足结合律、A*I=I*A=A、)
Inverse and Transpose
3)梯度下降的小技巧
a)feature scaling:加快收敛
b)learning rate:smaller or bigger
c)feature selection
4)正规方程
正规方程由于是代数运算,所以feature scaling可以省略。
本文探讨了梯度下降算法中学习速率的选择及其对收敛的影响,并介绍了几种加速收敛的技巧,如特征缩放和特征选择。此外,还概述了矩阵的基本运算及特性,包括加法、乘法以及逆矩阵和转置的概念。文中还提到了正规方程法,并指出其在进行特征缩放方面的优势。
5108

被折叠的 条评论
为什么被折叠?



