Model-based RL&动态规划(基于价值、基于策略，泛化迭代)

zhurui_xiaozhuzaizai

已于 2024-09-09 17:59:04 修改

阅读量1.2k

点赞数 14

分类专栏：自然语言处理文章标签：动态规划算法

于 2024-09-09 16:31:07 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_36378508/article/details/142061910

版权

白盒环境和黑盒环境

白盒环境：知道环境的状态转移函数P(s’|s)或P(s’|s,a)和奖励函数R(s)或R(s,a)：
　　白盒环境下的学习相当于直接给出了有监督学习的数据分布（就是有了目标靶子），不需要采样了，直接最小化泛化误差更新模型参数。
　　对于马尔可夫决策过程（MDP），在白盒环境下（即known MDP），就可以直接用动态规划算法（策略迭代算法、价值迭代算法）求解出最优状态价值函数和最优策略（控制），或者求出某一策略下的价值函数（预测）。

黑盒环境：不知道环境的状态转移函数P(s’|s)或P(s’|s,a)和奖励函数R(s)或R(s,a)：
　　黑盒环境就只能采集数据，尽可能的靠近靶子学习，即最小化数据的误差更新参数（训练出的模型是否接近真是模型就要看采集的数据的量）。
　　大部分强化学习现实场景，马尔可夫决策过程（MDP）是黑盒环境。对于马尔可夫决策过程（MDP），在不知道环境的状态转移函数和奖励函数下（或者是known MDP，但环境太大太复杂无法去使用）就使用无模型的强化学习算法和基于模型的强化学习算法算出最优策略和最优价值函数（控制），或者求出某一策略下的价值函数（预测）。这两种方法都是基于采样的数据来更新的，直接使用和环境交互的过程中采样到的数据来学习。

确定性策略和随机性策略

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。