优势演员-评论家算法(A2C)详解
1. 优势函数与损失平衡
优势函数的值可能非常小,特别是当动作分辨率较小时。这两个因素的结合可能导致策略损失的绝对值较小。而价值损失的规模与处于某个状态的价值相关,这个值可能非常大。
为了平衡这两个可能不同的梯度规模,通常的做法是给其中一个损失添加一个标量权重,以增大或减小其规模。例如,在代码中,价值损失通过 self.val_loss_coef 进行缩放。但这也成为了训练过程中需要调整的另一个超参数。
2. 训练A2C智能体
2.1 A2C在Pong游戏中使用n步回报
下面是配置使用n步回报优势估计的A2C智能体的规格文件:
# slm_lab/spec/benchmark/a2c/a2c_nstep_pong.json
{
"a2c_nstep_pong": {
"agent": [
{
"name": "A2C",
"algorithm": {
"name": "ActorCritic",
"action_pdtype": "default",
"action_policy": "default",
"explore_var_spec": null,
"gamma": 0.99,
超级会员免费看
订阅专栏 解锁全文
1146

被折叠的 条评论
为什么被折叠?



