线性回归
在我们开始考虑如何用模型拟合(fit)数据之前,我们需要确定一个拟合程度的度量。 损失函数(loss function)能够量化目标的实际值与预测值之间的差距。
解析解:能用公式表达出来的解(对问题的限制很严格)
即使在我们无法得到解析解的情况下,我们仍然可以有效地训练模型。 在许多任务上,那些难以优化的模型效果要更好。 因此,弄清楚如何训练这些难以优化的模型是非常重要的。
梯度下降
线性回归优化方法:梯度下降
小批量随机梯度下降:
b是batch size
随机采样b个样本
最简单的用法是计算损失函数关于模型参数的导数
但实际中的执行可能会非常慢:因为在每一次更新参数之前,我们必须遍历整个数据集。 因此,我们通常会在每次需要计算更新的时候随机抽取一小批样本, 这种变体叫做小批量随机梯度下降
总结:
- 梯度下降是不断沿着反梯度方向更新参数求解
- 小批量随机梯度下降是深度学习的默认解法
- 重要超参:batch size和lr
代码实现
从0开始手撕: