26、深度强化学习中的网络架构与硬件基础

脑补型产品

于 2025-10-31 12:18:20 发布

阅读量13

点赞数

CC 4.0 BY-SA版权

分类专栏：深度强化学习入门指南文章标签：深度强化学习网络架构 CPU

本文链接：https://blog.youkuaiyun.com/mongodb5scout/article/details/154598591

深度强化学习入门指南专栏收录该内容

35 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

深度强化学习中的网络架构与硬件基础

1. 网络架构相关

1.1 网络训练步骤

在深度强化学习里，网络参数的更新遵循标准的训练逻辑。Net 基类实现了标准化的 train_step 方法，供所有子类用于网络参数更新，主要步骤如下：
1. 利用学习率调度器和时钟更新学习率。
2. 清除现有的梯度。
3. 调用 loss.backward() 通过反向传播计算梯度。
4. 可选择裁剪梯度，防止参数更新过大。
5. 用优化器更新网络参数。
6. 若异步训练，将局部梯度推送到全局网络，并在更新后复制全局网络参数到局部网络。
7. 使用 @net_util.dev_check_train_step 装饰器检查网络参数是否更新，此功能仅在开发模式下生效。

以下是标准化网络参数更新方法的代码：

# slm_lab/agent/net/base.py
class Net(ABC):
    ...
    @net_util.dev_check_train_step
    def train_step(self, loss, optim, lr_scheduler, clock, global_net=None):
        lr_scheduler.step(epoch=ps.get(clock, 'frame'))
        optim.zero_grad()
        loss.backward()
        if self