海边的小灰鹅-优快云博客

L2 正则化通过添加 λ∑iwi2\lambda \sum_{i} w_i^2λ∑iwi2 来惩罚大的权重，从而限制了权重的增长。这使得模型更倾向于选择较小的权重，进而减少模型对输入特征的敏感性。：小的权重意味着模型的输出是相对平滑的，不会对输入的细小变化做出过度反应。：大的权重通常意味着模型在训练集中表现得很好，但对测试集的泛化能力较差。通过权重衰减，模型的表达能力被限制，从而降低了它在训练集上的过拟合倾向。通过减小权重的大小，模型的复杂度也被限制，从而减少过拟合的风险。除了 L2 正则化，还有。

2024-09-19 19:51:57 638

原创相比于多层非线性模型，研究多层线性模型的意义是不是不大

多层线性模型的研究意义相对较小，原因在于。具体来说，，不论堆叠多少层，它们的最终效果不会发生显著变化。

2024-09-19 11:29:56 463

原创为什么深度学习里的反向传播时需要对批量损失进行求和操作

两者的区别在于缩放问题。而取平均可以让每个样本对梯度的贡献保持一致，通常比较稳定。这也是为什么很多框架中，损失函数默认返回的是平均损失。反向传播的目的是通过链式法则计算损失函数相对于模型参数的梯度。在机器学习中，损失函数往往是整个批次的平均或总损失，而不是单个样本的损失。的原因主要是为了将批量损失转换为一个标量，这样 PyTorch 才能计算出损失函数相对于参数的总梯度。当我们使用批量数据进行训练时，损失函数返回的是一个向量（每个样本对应一个损失值）。因此，我们必须将每个样本的损失汇总成一个标量。

2024-09-17 16:52:21 313

原创深度学习中为什么要用tensor来作为features和labels的索引

在 PyTorch 中，使用张量 (tensor) 作为索引来提取features和labels，主要是为了与 PyTorch 的核心运算机制保持一致，并且在效率和灵活性上具有优势。

2024-09-17 15:53:51 494

空空如也

训练VAE时出现nan值

2024-08-17

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

weixin_52344381的博客

原创神经网络中的对称性问题

原创权重与过拟合

原创相比于多层非线性模型，研究多层线性模型的意义是不是不大

原创为什么深度学习里的反向传播时需要对批量损失进行求和操作

原创深度学习中为什么要用tensor来作为features和labels的索引

空空如也

训练VAE时出现nan值

原创 神经网络中的对称性问题

原创 权重与过拟合

原创 相比于多层非线性模型，研究多层线性模型的意义是不是不大

原创 为什么深度学习里的反向传播时需要对批量损失进行求和操作

原创 深度学习中为什么要用tensor来作为features和labels的索引

空空如也

训练VAE时出现nan值

原创神经网络中的对称性问题

原创权重与过拟合

原创相比于多层非线性模型，研究多层线性模型的意义是不是不大

原创为什么深度学习里的反向传播时需要对批量损失进行求和操作

原创深度学习中为什么要用tensor来作为features和labels的索引