深度强化学习中的NAF算法-连续控制(对DQN的改进)

NAF算法是对DQN的改进,用于处理连续动作空间的强化学习问题。它引入Advantage函数A(s,a),通过神经网络同时输出Q值和动作a。算法基于一个二次型的Advantage函数,其中状态x、动作u和网络预测的动作μ是关键元素。尽管公式复杂,但NAF提供了一种更有效的策略来决定在特定状态下每个动作的优劣。" 7352712,1069838,Struts2.0配置详解:通配符与流类型结果,"['struts', 'struts2.0', 'action', 'jsp', 'json']

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

DQN算法以及之前的种种改进都是面向离散的action的,DQN算法没有办法面向连续的action,因为Q值更新的时候要用到求最大的action。


本来DQN主要是输出Q值的,aciton是通过argmax顺便实现的,但是现在NAF需要用神经网络输出了,那么就是同时输出Q 和 a。

基本的idea就是引入了Advantage函数A(s,a),也就是每一个动作在特定状态下的优劣。

A(a) = -P(a-x)^2P为正

Q(s,a) = A(s,a) + V(s)



上式是A的矩阵表示,也就是一个二次型。其中x是状态,u是动作,mu是神经网络的输出动作。

那么令

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值