actor-critic框架

本文介绍了强化学习中的Actor-Critic框架,它融合了Q学习和Policy Gradients算法,适用于连续动作空间。Actor网络根据状态选择动作,Critic网络则评估动作价值。此外,还提到了DDPG和A3C算法,其中A3C通过多线程探索策略实现样本低相关性,而UNREAL在A3C基础上增加了辅助任务,结合on-policy和off-policy学习。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

最近发现我大自动化的思想在deep learning中很有体现呀,之前说过77要去研究bicnet了,读完之后从里面采用的actor-critic框架说起吧,这个就用到了我们自控里面反馈的思想。

据说今年几个顶会文章强化学习占到70%,在图像、NLP等等方面都广泛使用,强化学习在博弈论、控制论、运筹学、信息论、模拟优化方法、多主体系统学习、群体智能、统计学以及遗传算法等多个领域都有所应用。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值