21、机器学习中的贝叶斯强化学习、束搜索与行为克隆

最新推荐文章于 2025-10-31 12:48:24 发布

Mars5

最新推荐文章于 2025-10-31 12:48:24 发布

阅读量15

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习与数据挖掘精要文章标签：贝叶斯强化学习束搜索行为克隆

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/mars5/article/details/154600778

机器学习与数据挖掘精要专栏收录该内容

99 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

机器学习中的贝叶斯强化学习、束搜索与行为克隆

1. 贝叶斯强化学习

1.1 定义与背景

贝叶斯强化学习将强化学习建模为贝叶斯学习问题。它可追溯到 20 世纪 50 至 60 年代，当时研究人员在马尔可夫决策过程（MDP）形式化后，考虑控制具有不确定转移和奖励概率的马尔可夫过程，这等价于强化学习。贝叶斯学习通过概率推理进行，自然地与决策理论相结合。

与其他强化学习方法相比，贝叶斯强化学习使用概率分布（而非点估计）来全面捕捉不确定性，这使学习者能做出更明智的决策，有可能用更少的数据更快地学习，还能自然地优化探索/利用权衡。此外，先验分布的使用便于编码领域知识，学习过程能以自然且有原则的方式利用这些知识。

1.2 学习方法结构

马尔可夫决策过程（MDP） ：MDP 可由元组 $\langle S, A, T \rangle$ 形式化，其中 $S$ 是状态集，$A$ 是动作集，$T(s, a, s’) = Pr(s’|s, a)$ 是转移分布，表示在状态 $s$ 执行动作 $a$ 后到达状态 $s’$ 的概率。设 $s_r$ 表示状态的奖励特征，$Pr(s’_r|s, a)$ 是在状态 $s$ 执行动作 $a$ 获得奖励 $r$ 的概率。策略 $\pi: S \to A$ 是从状态到动作的映射。对于给定的折扣因子 $0 \leq \gamma \leq 1$ 和时间范围 $h$，策略 $\pi$ 的值 $V^{\pi}$ 是执行该策略时获得的预期折扣总奖励。
强化学习问题 ：强化学习关注在转移（和奖励）概率 $T$ 未知（或不确

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。