66、强化学习与集成学习相关知识解析

最新推荐文章于 2025-11-30 00:05:08 发布

Mars5

最新推荐文章于 2025-11-30 00:05:08 发布

阅读量11

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习与数据挖掘精要文章标签：强化学习集成学习经验风险最小化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/mars5/article/details/154601070

机器学习与数据挖掘精要专栏收录该内容

99 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

强化学习与集成学习相关知识解析

1. 强化学习中的高效探索

在强化学习里，高效探索是个关键问题。有定理表明，对于所有算法，存在一个马尔可夫决策过程（MDP），要以至少 1/2 的概率找到 ε - 最优策略，需要进行 Ω(SA) 次探索。这里的 S 代表状态集，A 代表动作集。由于表示一个策略就需要大小为 SA 的查找表，所以这个与算法无关的下界并不令人意外。

1.1 MDP 学习的变体

MDP 学习存在一些细微的变体，这些变体不会对可证明结果的集合产生定性影响。
- 奖励范围调整 ：若奖励处于有界范围内，可将其偏移并重新缩放到区间 [0, 1]。
- 软时间范围（折扣） ：常见做法是使用软时间范围，此时策略评估会发生变化，变为：
[ \rho_{\gamma}(\pi; s) = E_{(a,s,r)\sim(\pi,P,R)} \sum_{t = 1}^{\infty} \gamma^t r_t ]
其中 γ < 1。这种设置和硬时间范围并不完全等价，但有类似结果可证明，此时 1/(1 - γ) 会取代 T 的角色，同时算法也会有轻微改动。
- 目标改变 ：可以有这样一种算法，它能处理探索和利用，然后回顾经验轨迹，将一部分动作标记为“探索动作”，并保证其余动作遵循 ε - 最优策略。对已知算法做些小改动，在这种情况下似乎也可行。

1.2 替代设置

通过对世界做出额外假设，形成了一些已知的基本设置变体，包括：
- 因子化 MDPs
- 度量 MD

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。