- 博客(5)
- 收藏
- 关注
原创 权重与过拟合
L2 正则化通过添加 λ∑iwi2\lambda \sum_{i} w_i^2λ∑iwi2 来惩罚大的权重,从而限制了权重的增长。这使得模型更倾向于选择较小的权重,进而减少模型对输入特征的敏感性。:小的权重意味着模型的输出是相对平滑的,不会对输入的细小变化做出过度反应。:大的权重通常意味着模型在训练集中表现得很好,但对测试集的泛化能力较差。通过权重衰减,模型的表达能力被限制,从而降低了它在训练集上的过拟合倾向。通过减小权重的大小,模型的复杂度也被限制,从而减少过拟合的风险。除了 L2 正则化,还有。
2024-09-19 19:51:57
638
原创 相比于多层非线性模型,研究多层线性模型的意义是不是不大
多层线性模型的研究意义相对较小,原因在于。具体来说,,不论堆叠多少层,它们的最终效果不会发生显著变化。
2024-09-19 11:29:56
463
原创 为什么深度学习里的反向传播时需要对批量损失进行求和操作
两者的区别在于缩放问题。而取平均可以让每个样本对梯度的贡献保持一致,通常比较稳定。这也是为什么很多框架中,损失函数默认返回的是平均损失。反向传播的目的是通过链式法则计算损失函数相对于模型参数的梯度。在机器学习中,损失函数往往是整个批次的平均或总损失,而不是单个样本的损失。的原因主要是为了将批量损失转换为一个标量,这样 PyTorch 才能计算出损失函数相对于参数的总梯度。当我们使用批量数据进行训练时,损失函数返回的是一个向量(每个样本对应一个损失值)。因此,我们必须将每个样本的损失汇总成一个标量。
2024-09-17 16:52:21
313
原创 深度学习中为什么要用tensor来作为features和labels的索引
在 PyTorch 中,使用张量 (tensor) 作为索引来提取features和labels,主要是为了与 PyTorch 的核心运算机制保持一致,并且在效率和灵活性上具有优势。
2024-09-17 15:53:51
494
空空如也
训练VAE时出现nan值
2024-08-17
TA创建的收藏夹 TA关注的收藏夹
TA关注的人