14、深度强化学习:DQN改进与策略梯度方法探索

深度强化学习:DQN改进与策略梯度方法探索

1. DQN与Rainbow在吃豆人游戏中的表现

在吃豆人游戏中,DQN和Rainbow智能体都能出色地完成躲避幽灵、收集豆子以及使用传送门的任务。从图中展示的完整游戏情节来看,Rainbow智能体总体表现优于DQN智能体。Rainbow智能体还学会了寻找能量豆来吃掉幽灵,并且几乎能完成第一关,若给予更多训练时间,它有很大可能完成。不过,两个智能体都还未学会吃水果获取额外分数,也未学会在吃掉能量豆后主动追捕幽灵。

智能体 躲避幽灵 收集豆子 利用传送门 寻找能量豆 完成关卡 吃水果 追捕幽灵
DQN
Rainbow 接近完成
2. DQN的其他改
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值