强化学习-DQN和AC算法

本文介绍了DQN算法,它是基于深度学习的Q-learning,通过价值函数近似和目标网络解决高维状态空间的问题。DQN在处理连续动作时面临挑战,包括优化问题的解决。接着,文章探讨了AC算法,该算法结合策略梯度和值函数,通过演员-评论家的角色协作进行单步更新,以优化策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

DQN

DQN 是指基于深度学习的 Q-learning 算法,主要结合了价值函数近似(Value Function Approximation)与神经网络技术,并采用了目标网络和经历回放的方法进行网络的训练。

在 Q-learning 中,我们使用表格来存储每个状态 s 下采取动作 a 获得的奖励,即状态-动作值函数 Q(s,a)Q(s,a)。然而,这种方法在状态量巨大甚至是连续的任务中,会遇到维度灾难问题,往往是不可行的。因此,DQN 采用了价值函数近似的表示方法。

举例来说,有一种评论家叫做 state value function(状态价值函数)。状态价值函数的意思就是说,假设演员叫做 \piπ,拿 \piπ 跟环境去做互动。假设 \piπ 看到了某一个状态 s,如果在玩 Atari 游戏的话,状态 s 是某一个画面,看到某一个画面的时候,接下来一直玩到游戏结束,期望的累积奖励有多大。所以 V^{\pi}V
π
是一个函数,这个函数输入一个状态,然后它会输出一个标量( scalar)。这个标量代表说,\piπ 这个演员看到状态 s 的时候,接下来预期到游戏结束的时候,它可以得到多大的值。

DQN的问题

DQN 其实存在一些问题,最大的问题是它不太容易处理连续动作。很多时候动作是连续的,比如我们玩雅达利的游戏,智能体只需要决定比如说上下左右,这种动作是离散的。那很多时候动作是连续的。举例来说假设智能体要做的事情是开自驾车,它要决定说它方向盘要左转几度, 右转几度,这是连续的。假设智能体是一个机器人,它身上有 50 个 关节,它的每一个动作就对应到它身上的这 50

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值