深度强化学习中的网络架构与硬件基础
1. 网络架构相关
1.1 网络训练步骤
在深度强化学习里,网络参数的更新遵循标准的训练逻辑。Net 基类实现了标准化的 train_step 方法,供所有子类用于网络参数更新,主要步骤如下:
1. 利用学习率调度器和时钟更新学习率。
2. 清除现有的梯度。
3. 调用 loss.backward() 通过反向传播计算梯度。
4. 可选择裁剪梯度,防止参数更新过大。
5. 用优化器更新网络参数。
6. 若异步训练,将局部梯度推送到全局网络,并在更新后复制全局网络参数到局部网络。
7. 使用 @net_util.dev_check_train_step 装饰器检查网络参数是否更新,此功能仅在开发模式下生效。
以下是标准化网络参数更新方法的代码:
# slm_lab/agent/net/base.py
class Net(ABC):
...
@net_util.dev_check_train_step
def train_step(self, loss, optim, lr_scheduler, clock, global_net=None):
lr_scheduler.step(epoch=ps.get(clock, 'frame'))
optim.zero_grad()
loss.backward()
if self
超级会员免费看
订阅专栏 解锁全文
4219

被折叠的 条评论
为什么被折叠?



