16、优势演员-评论家算法(A2C)详解

优势演员-评论家算法(A2C)详解

1. 优势函数与损失平衡

优势函数的值可能非常小,特别是当动作分辨率较小时。这两个因素的结合可能导致策略损失的绝对值较小。而价值损失的规模与处于某个状态的价值相关,这个值可能非常大。

为了平衡这两个可能不同的梯度规模,通常的做法是给其中一个损失添加一个标量权重,以增大或减小其规模。例如,在代码中,价值损失通过 self.val_loss_coef 进行缩放。但这也成为了训练过程中需要调整的另一个超参数。

2. 训练A2C智能体

2.1 A2C在Pong游戏中使用n步回报

下面是配置使用n步回报优势估计的A2C智能体的规格文件:

# slm_lab/spec/benchmark/a2c/a2c_nstep_pong.json
{
    "a2c_nstep_pong": {
        "agent": [
            {
                "name": "A2C",
                "algorithm": {
                    "name": "ActorCritic",
                    "action_pdtype": "default",
                    "action_policy": "default",
                    "explore_var_spec": null,
                    "gamma": 0.99,
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值