shengfzy-优快云博客

原创 Transformer(一)

Transformer 是一种基于自注意力（Self-Attention）机制的神经网络架构，在自然语言处理（NLP）任务中被广泛应用，例如机器翻译、文本生成等。堆叠而成，每层结构相同，通常堆叠 6 层（可调）。，比 RNN 更高效，是 NLP 任务的主流架构，并扩展到了。Transformer 由于可以。Transformer 主要由。在 2017 年的论文。编码器和解码器均由多个。

2025-02-28 22:01:39 700

PPO 通过限制策略更新的步长，平衡了策略改进的稳定性和训练效率，广泛应用于连续和离散控制任务。PPO 作为强化学习领域的重要算法，在策略优化的稳定性和效率上表现优秀。本文深入探讨了 PPO 的核心概念，包括策略网络、价值网络、优势估计及损失函数计算，并与 DQN 进行了对比。PPO 适用于需要稳定更新策略的复杂控制任务，而 DQN 则更适用于离散动作环境。在 PPO 中，策略网络输出的是动作的概率分布，而非单一动作。进行策略更新，约束策略的变化范围，防止剧烈更新导致训练不稳定。

2025-02-15 19:08:59 977

原创如何在M芯片的Macbook上训练神经网络

在 M2 芯片上使用 PyTorch，可以有效利用 Metal 后端进行 GPU 加速。通过适当的安装和代码配置，你可以在 MacBook 上高效地进行深度学习训练和模型开发。

2024-12-03 22:09:43 2466 2

原创让神经网络玩吃豆人游戏

在强化学习中，深度Q网络（DQN）是一种常用的算法，它结合了Q学习和深度神经网络，用于解决高维状态空间的问题。DQN通过使用神经网络逼近Q值函数，使得能够在复杂的环境中做出最优决策。本文将介绍如何在OpenAI Gym的MsPacman游戏中实现并训练一个DQN模型，并展示其如何在训练过程中通过与环境交互不断改进策略。本文展示了如何实现并训练一个DQN智能体来玩游戏。通过合理的图像预处理、经验回放、双重DQN和ε-greedy策略，DQN能够成功学习到一个有效的游戏策略。

2024-11-29 22:55:19 1018

原创 Pytorch继承nn.module和nn.autograd.Function的区别

和都是 PyTorch 中定义和管理计算图的核心组件，但它们有不同的用途和设计目标。以下是它们之间的主要区别：是 PyTorch 中最常用的类，用于构建神经网络层和模型。它提供了对神经网络模型的结构化定义，包括前向传播（）和参数管理（如权重和偏置的保存与更新）。网络结构定义：是定义整个神经网络的基础类。你可以通过继承这个类来构建自己的网络。它可以包含多个层（例如卷积层、全连接层、激活函数等），并组织这些层的组合。自动管理参数：会自动跟踪其子模块的参数（例如卷积核、全连接层的权重和偏置），并且在优化

2024-11-29 22:45:47 1216

Linux高级编程的学习资料

Linux高级编程的学习笔记，以思维导图的形式总结了Linux编程中的关键技术点

2024-11-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

shengfzy的博客

原创 Transformer(一)

原创深度强化学习中的 PPO 详解

原创如何在M芯片的Macbook上训练神经网络

原创让神经网络玩吃豆人游戏

原创 Pytorch继承nn.module和nn.autograd.Function的区别

Linux高级编程的学习资料

空空如也

原创 Transformer(一)

原创 深度强化学习中的 PPO 详解

原创 如何在M芯片的Macbook上训练神经网络

原创 让神经网络玩吃豆人游戏

原创 Pytorch继承nn.module和nn.autograd.Function的区别

Linux高级编程的学习资料

空空如也

原创深度强化学习中的 PPO 详解

原创如何在M芯片的Macbook上训练神经网络

原创让神经网络玩吃豆人游戏