动手学深度学习05:正则化技术
我们总是可以通过去收集更多的训练数据来缓解过拟合。 但这可能成本很高,耗时颇多,或者完全超出我们的控制,因而在短期内不可能做到。 假设我们已经拥有尽可能多的高质量数据,我们便可以将重点放在正则化技术上。
权重衰减
权重衰减(weight decay)是最广泛使用的正则化的技术之一, 它通常也被称为𝐿2正则化
L(w,b)=1n∑i=1n12(w⊤x(i)+b−y(i))2 L(\mathbf{w}, b) = \frac{1}{n}\sum_{i=1}^n \frac{1}{2}\left(\mathbf{w}^\top \mathbf{x}^{(i)} + b - y^{(i)}\right)^2 L(w,b)=n1i=1∑n21(w⊤x(i)+b−y(i))2
L(w,b)+λ2∥w∥2 L(\mathbf{w}, b) + \frac{\lambda}{2} \|\mathbf{w}\|^2 L(w,b)+2λ∥w∥2
w←(1−ηλ)w−η∣B∣∑i∈Bx(i)(w⊤x(i)+b−y(i)). \begin{aligned} \mathbf{w} & \leftarrow \left(1- \eta\lambda \right) \mathbf{w} - \frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}} \mathbf{x}^{(i)} \left(\mathbf{w}^\top \mathbf{x}^{(i)} + b - y^{(i)}\right). \end{aligned} w

文章介绍了深度学习中处理过拟合的两种主要正则化技术:权重衰减(L2正则化)和dropout。权重衰减通过在损失函数中添加权重的L2范数来防止模型复杂度过高。dropout则在训练过程中随机丢弃神经元,以增加模型的泛化能力。文章提供了PyTorch实现的示例代码,展示了这两种技术如何应用于模型训练。
最低0.47元/天 解锁文章
2036

被折叠的 条评论
为什么被折叠?



