26、深度强化学习中的网络架构与硬件基础

深度强化学习中的网络架构与硬件基础

1. 网络架构相关

1.1 网络训练步骤

在深度强化学习里,网络参数的更新遵循标准的训练逻辑。Net 基类实现了标准化的 train_step 方法,供所有子类用于网络参数更新,主要步骤如下:
1. 利用学习率调度器和时钟更新学习率。
2. 清除现有的梯度。
3. 调用 loss.backward() 通过反向传播计算梯度。
4. 可选择裁剪梯度,防止参数更新过大。
5. 用优化器更新网络参数。
6. 若异步训练,将局部梯度推送到全局网络,并在更新后复制全局网络参数到局部网络。
7. 使用 @net_util.dev_check_train_step 装饰器检查网络参数是否更新,此功能仅在开发模式下生效。

以下是标准化网络参数更新方法的代码:

# slm_lab/agent/net/base.py
class Net(ABC):
    ...
    @net_util.dev_check_train_step
    def train_step(self, loss, optim, lr_scheduler, clock, global_net=None):
        lr_scheduler.step(epoch=ps.get(clock, 'frame'))
        optim.zero_grad()
        loss.backward()
        if self
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值