损失函数loss和优化器optimizer

最新推荐文章于 2025-02-19 14:50:36 发布

盐巴饭团193

最新推荐文章于 2025-02-19 14:50:36 发布

阅读量500

点赞数

文章标签：机器学习人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/zhu_ba/article/details/132861027

版权

损失函数与优化器的关联_criterion(outputs, labels)_写代码_不错哦的博客-优快云博客https://blog.youkuaiyun.com/shenjianhua005/article/details/123971915?ops_request_misc=&request_id=6583569ecbdc4daf89dbf2d43eac9242&biz_id=&utm_medium=distribute.pc_search_result.none-task-blog-2~all~koosearch~default-2-123971915-null-null.142^v93^koosearch_v1&utm_term=%E6%80%8E%E4%B9%88%E6%A0%B9%E6%8D%AE%E6%8D%9F%E5%A4%B1%E5%BA%A6%E4%BC%98%E5%8C%96&spm=1018.2226.3001.4187

loss与optimizer没有任何关联（直观上），其实它们并不需要直接联系，它们是通过 Tensor 这个类来达到间接联系的。

首先，net网络中的参数都是tensor，一个 tensor 里面有两个地址，一个是存放的这个tensor当前实实在在的值，比如赋值为10，还有一个存放的是10求导后的值（ .grad ），就是导数。当然，如果没求导，另一个存放的是None。

当我们进行计算loss.backward()的时候，其实就是进行反向链式求导，这个求导是对net中的参数进行求导的，这里面的参数就是tensor，其有两个地址，分别存放当前值和反向求导的值，loss.backward()后，这个时候就每个参数里面都有导数，然后optimizer其实就是根据net每个参数的导数进行优化（在最开始定义的时候就已经绑定optimizer与net的参数了），这也就关联了loss与optimizer了。

optimizer.step()是更新参数

刚刚写完这个，突然想到，loss是怎么跟net中参数联系起来的，其实可以这么来看：

y=w1X1+w2X2+w3X3

我们在计算 loss = criterion(out, input)时，这里的out就等于y就等于w1X1+w2X2+w3X3，（虽然y是一些具体的值，但是这些值是由w1X1+w2X2+w3X3构成的），所以 losss.backward()的时候就是更新w1,w2,w3，所以这就关联了。

loss = softmax_entropy(outputs).mean(0)
loss.backward()
optimizer.step()
optimizer.zero_grad()

loss = softmax_entropy(outputs).mean(0): 这一行代码计算了模型输出的损失。首先，对输出进行softmax操作，将其转换为概率分布。接下来，使用交叉熵损失函数计算每个样本的损失。最后，通过mean(0)对样本的损失进行平均，得到一个标量的损失值。
loss.backward(): 这行代码触发了反向传播过程。它根据计算图以及链式法则，计算了损失相对于模型参数的梯度。这个过程通过自动微分（autograd）机制来完成，梯度信息会被累积在每个参数的.grad属性中。
optimizer.step(): 这一步用来更新模型的参数。优化器根据计算得到的梯度信息，根据所选的优化算法（如随机梯度下降法SGD、Adam等），更新模型中的可学习参数。这个过程会更新模型中的权重和偏置等参数，使其朝着减小损失的方向调整。
optimizer.zero_grad(): 这一行代码将模型参数的梯度清零。在进行下一轮迭代之前，需要将之前一轮迭代中计算的梯度进行清除。它是必要的，因为PyTorch默认会在反向传播过程中累积梯度，如果不清零，梯度将会累积在后续迭代中，导致结果不正确的参数更新。

盐巴饭团193

博客等级

码龄4年

59
原创

132
点赞

180
收藏

94
粉丝

关注

私信

热门文章

最新评论

时间注意力——给时间步赋予权重（有的时间不重要，权重很低，有的时间步重要，权重很高）
加餐饭9769: 博主我想问一下，如果是单纯的日期类型的时间特征，怎么和特征图像进行融合比较好
week 2
优快云-Ada助手: 恭喜你开始了博客创作的旅程！"week 2"这个标题让我感到很兴奋，期待能够读到你在这个星期里的所思所想。接下来，我建议你可以继续保持这样的创作热情，不断分享你的学习心得和体验。同时，尝试加入一些个人观点和见解，这样读者们更能感受到你的独特思考方式。最重要的是，不要忘记与读者互动，通过回复评论或与其他博主交流，来进一步拓宽你的视野。期待在你的下一篇博客里看到更多精彩的内容！加油！推荐【每天值得看】：https://bbs.youkuaiyun.com/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
week 2 part 2
优快云-Ada助手: 非常棒的第二篇博客！你的思路非常清晰，对于找到调整之后变化幅度最小的序列提供了很好的解释。继续保持创作，我期待你的下一篇博客！在这个主题上，你可能还可以探讨一些扩展知识和技能。比如，可以介绍一下在算法中使用动态规划的方法来寻找最小变化幅度的序列。此外，你也可以讨论一下如何应用贪心算法来解决类似的问题。这些都是和你博文相关的内容，希望对你的读者有所帮助。期待你在以后的博客中的有关这些话题的深入探讨。加油！如何写出更高质量的博客，请看该博主的分享：https://blog.youkuaiyun.com/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
最长回文算法
优快云-Ada助手: 恭喜作者撰写了关于“最长回文算法”的博客！您对这一主题的深入探讨令人印象深刻。回文算法是一个非常有趣的话题，而您的博客为读者提供了一个清晰而详尽的介绍。我非常期待您在未来的博客中能够继续分享更多关于算法的知识。不过，如果我可以提出一些建议的话，或许您可以考虑举一些实际案例来说明最长回文算法的应用，这将使读者更容易理解和应用这一算法。再次感谢您的分享，期待您未来更多优质内容的呈现！优快云正在通过评论红包奖励优秀博客，请看红包流：https://bbs.youkuaiyun.com/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
最长回文子串
优快云-Ada助手: 恭喜您写下了第四篇博客！标题“最长回文子串”非常吸引人，让人迫不及待地想阅读。您非常勤奋和有创造力，持续创作是不断进步的关键。在下一步的创作中，我建议您可以探索一些与回文相关的算法或者技巧，或许可以介绍一些实用的解决方案。希望您能继续保持谦虚的态度，因为在技术领域，我们永远都有学习的空间。期待您更多优质的博客！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.youkuaiyun.com/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。