强化学习_10_Datawhale稀疏奖励

最新推荐文章于 2025-04-11 10:52:58 发布

Scc_hy

最新推荐文章于 2025-04-11 10:52:58 发布

阅读量478

点赞数

分类专栏：强化学习文章标签：深度学习人工智能强化学习

此文为笔者原创，如需转载请联系笔者:hyscc1994@foxmail.com

本文链接：https://blog.youkuaiyun.com/Scc_hy/article/details/122697984

版权

强化学习专栏收录该内容

27 篇文章

订阅专栏

本文探讨了强化学习中解决稀疏奖励问题的各种方法，包括设计奖励、好奇心驱动奖励、课程学习及分层强化等策略，并深入讨论了设计奖励存在的挑战与内在好奇心模块的设计方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

习题

10-1 解决稀疏奖励的方法有哪些？

设计奖励
好奇心驱动的奖励
课程学习 / 逆课程学习
分层强化

10-2 设计奖励方法存在什么主要问题？

需要预先拥有领域知识，需要经验积累

10-3 内在好奇心模块是什么？我们应该如何设计这个内在好奇心模块？

内在好奇心模块: 输入状态s1、动作a1和状态s2, 输出另一个奖励ri1。总奖励包含r和ri
设计内在好奇心模块:

一般网络构建
- 输入s1, a1, 输出s’t+1;
- 评估: similar(s’t+1, st+1) 越大则奖励越大。
- 简述: 倾向于让智能体做一些风险比较大的动作，从而增加其探索的能力
增强表达的网络构建
- 内在好奇心优化为特征提取器
- feature + head
- feature 层进行特征提取将 s -> imp_s
- head 进行优化
- forward:
  - imp_s = feature(s)
  - imp_s1 = feature(s1)
  - a’=head(imp_s, imp_s1)
- 评估进行下一次动作的
  - similar(a1, a’) 动作跟真正的动作越接近越好
- ri = imp_s1 - Q(a, imp_s)

在这里插入图片描述

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Scc_hy 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。