Reinforcement learning: integrating learning and planning, exploitation and exploration

最新推荐文章于 2025-01-29 21:10:30 发布

原创最新推荐文章于 2025-01-29 21:10:30 发布 · 455 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#RL #UCL #exploitati #Model

RL & DL & SLAM 同时被 2 个专栏收录

38 篇文章

订阅专栏

__CMU_ECE_MS_PERIOD__

36 篇文章

订阅专栏

本文探讨了基于模型的强化学习方法，包括如何从经验中构建环境模型，并利用这些模型进行价值函数和策略的更新。文章介绍了model-based RL的整体框架、基于仿真的搜索策略以及探索与利用之间的平衡。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

介绍
基于模型的RL
整体框架
基于仿真的搜索
Exploration and Exploitation

介绍

越看到后面，我越发觉得RL更像是一种思想，Policy，State都需要自己进行定义，计算value function的过程也有公式，但是不如深度学习那么直接。

之前的章节是说到如何从经验中得到policy和value function，这一节是如何从经验中获取模型。然后使用模型加经验来更新policy和value function。model-based RL没有对environment进行建模，直接通过经验得到value function或者是policy。Model-based method会对环境进行建模。reward和state就可以通过这个模型推断出来。

基于模型的RL

这里写图片描述

基于模型的RL可以通过监督学习学习模型，然后对模型的未知可以进行推测。但是缺点在于模型和value function都变成了近似计算，这很可能会增加error。

模型M就是MDP

整体框架

experience有两个来源：真实的experience和simulated experience。Model-based RL是先从real experience学到模型，再从simulated experience中获得value function（policy）

然后Dyna的value function（policy）是从simulated experience中获得。
这里写图片描述

Dyna-Q Learning 算法：
这里写图片描述

基于仿真的搜索

根据模型仿真episodes，然后再使用Model-Free RL去simulate episodes。

TD search，每次通过Sarsa来更新delta Q：
这里写图片描述

Exploration and Exploitation

exploitation：找到针对当前信息最好的决策
exploration：获取更多信息，去探索有可能的新的决策

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。