Deep Learning
文章平均质量分 80
shengfzy
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
深度强化学习中的 PPO 详解
PPO 通过限制策略更新的步长,平衡了策略改进的稳定性和训练效率,广泛应用于连续和离散控制任务。PPO 作为强化学习领域的重要算法,在策略优化的稳定性和效率上表现优秀。本文深入探讨了 PPO 的核心概念,包括策略网络、价值网络、优势估计及损失函数计算,并与 DQN 进行了对比。PPO 适用于需要稳定更新策略的复杂控制任务,而 DQN 则更适用于离散动作环境。在 PPO 中,策略网络输出的是动作的概率分布,而非单一动作。进行策略更新,约束策略的变化范围,防止剧烈更新导致训练不稳定。原创 2025-02-15 19:08:59 · 977 阅读 · 0 评论 -
如何在M芯片的Macbook上训练神经网络
在 M2 芯片上使用 PyTorch,可以有效利用 Metal 后端进行 GPU 加速。通过适当的安装和代码配置,你可以在 MacBook 上高效地进行深度学习训练和模型开发。原创 2024-12-03 22:09:43 · 2468 阅读 · 0 评论 -
Pytorch继承nn.module和nn.autograd.Function的区别
和 都是 PyTorch 中定义和管理计算图的核心组件,但它们有不同的用途和设计目标。以下是它们之间的主要区别: 是 PyTorch 中最常用的类,用于构建神经网络层和模型。它提供了对神经网络模型的结构化定义,包括前向传播()和参数管理(如权重和偏置的保存与更新)。网络结构定义: 是定义整个神经网络的基础类。你可以通过继承这个类来构建自己的网络。它可以包含多个层(例如卷积层、全连接层、激活函数等),并组织这些层的组合。自动管理参数: 会自动跟踪其子模块的参数(例如卷积核、全连接层的权重和偏置),并且在优化原创 2024-11-29 22:45:47 · 1217 阅读 · 0 评论
分享