强化学习 —— （5）Sparse Reward

最新推荐文章于 2025-03-06 14:34:55 发布

EntropyPlus

最新推荐文章于 2025-03-06 14:34:55 发布

阅读量1.1k

点赞数

分类专栏：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/u012759262/article/details/105633322

版权

强化学习专栏收录该内容

7 篇文章

订阅专栏

1. Reward 问题

通常情况下，agent每一步操作有一个reward对应，但是，当reward非常稀疏时怎么办，可能三四步甚至更多才能产生reward。

1.2. reward shaping

环境有一个固定的reward，为了引导agent，需要我们自己设计规则制定reward。在设计类游戏中，人为指定的规则为：
在这里插入图片描述

1.2.1 增加好奇模块

在这里插入图片描述

在Intrinsic Curiosity Module中，输入三个值： $a_t, s_t, s_{t+1}$ ，如果 $\hat{s}_{t+1}$ 与 $s_{t+1}$ 相差越大，则得到的奖励越大，鼓励agent采取不同的行为。

当然，为了保证每一个探索的action都是重要的，所以另外需要Feature Ext从state中抽取的特征，利用这个特征来对探索的action是否重要进行评估。
在这里插入图片描述

1.3. Curriculum Learning

在这里插入图片描述

2. Imitation learning

没有办法从环境中得到reward怎么办？

2.1 Behavior Cloning

将问题变成一个监督学习的问题，从现有的“专家”系统中学习action。
在这里插入图片描述

但是这个可能会有个问题，agent不知道极端情况下该怎么执行action，相当于没有负样本的情况。

2.2 Inverse Reinforcement Learning

在这里插入图片描述
默认experts是最佳的，设计一个reward funtion，计算结果永远要好于agent。

在这里插入图片描述

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。