- 博客(5)
- 收藏
- 关注
原创 Transformer(一)
Transformer 是一种基于自注意力(Self-Attention)机制的神经网络架构,在自然语言处理(NLP)任务中被广泛应用,例如机器翻译、文本生成等。堆叠而成,每层结构相同,通常堆叠 6 层(可调)。,比 RNN 更高效,是 NLP 任务的主流架构,并扩展到了。Transformer 由于可以。Transformer 主要由。在 2017 年的论文。编码器和解码器均由多个。
2025-02-28 22:01:39
700
原创 深度强化学习中的 PPO 详解
PPO 通过限制策略更新的步长,平衡了策略改进的稳定性和训练效率,广泛应用于连续和离散控制任务。PPO 作为强化学习领域的重要算法,在策略优化的稳定性和效率上表现优秀。本文深入探讨了 PPO 的核心概念,包括策略网络、价值网络、优势估计及损失函数计算,并与 DQN 进行了对比。PPO 适用于需要稳定更新策略的复杂控制任务,而 DQN 则更适用于离散动作环境。在 PPO 中,策略网络输出的是动作的概率分布,而非单一动作。进行策略更新,约束策略的变化范围,防止剧烈更新导致训练不稳定。
2025-02-15 19:08:59
977
原创 如何在M芯片的Macbook上训练神经网络
在 M2 芯片上使用 PyTorch,可以有效利用 Metal 后端进行 GPU 加速。通过适当的安装和代码配置,你可以在 MacBook 上高效地进行深度学习训练和模型开发。
2024-12-03 22:09:43
2466
2
原创 让神经网络玩吃豆人游戏
在强化学习中,深度Q网络(DQN)是一种常用的算法,它结合了Q学习和深度神经网络,用于解决高维状态空间的问题。DQN通过使用神经网络逼近Q值函数,使得能够在复杂的环境中做出最优决策。本文将介绍如何在OpenAI Gym的MsPacman游戏中实现并训练一个DQN模型,并展示其如何在训练过程中通过与环境交互不断改进策略。本文展示了如何实现并训练一个DQN智能体来玩游戏。通过合理的图像预处理、经验回放、双重DQN和ε-greedy策略,DQN能够成功学习到一个有效的游戏策略。
2024-11-29 22:55:19
1018
原创 Pytorch继承nn.module和nn.autograd.Function的区别
和 都是 PyTorch 中定义和管理计算图的核心组件,但它们有不同的用途和设计目标。以下是它们之间的主要区别: 是 PyTorch 中最常用的类,用于构建神经网络层和模型。它提供了对神经网络模型的结构化定义,包括前向传播()和参数管理(如权重和偏置的保存与更新)。网络结构定义: 是定义整个神经网络的基础类。你可以通过继承这个类来构建自己的网络。它可以包含多个层(例如卷积层、全连接层、激活函数等),并组织这些层的组合。自动管理参数: 会自动跟踪其子模块的参数(例如卷积核、全连接层的权重和偏置),并且在优化
2024-11-29 22:45:47
1216
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅