强化学习与集成学习相关知识解析
1. 强化学习中的高效探索
在强化学习里,高效探索是个关键问题。有定理表明,对于所有算法,存在一个马尔可夫决策过程(MDP),要以至少 1/2 的概率找到 ε - 最优策略,需要进行 Ω(SA) 次探索。这里的 S 代表状态集,A 代表动作集。由于表示一个策略就需要大小为 SA 的查找表,所以这个与算法无关的下界并不令人意外。
1.1 MDP 学习的变体
MDP 学习存在一些细微的变体,这些变体不会对可证明结果的集合产生定性影响。
- 奖励范围调整 :若奖励处于有界范围内,可将其偏移并重新缩放到区间 [0, 1]。
- 软时间范围(折扣) :常见做法是使用软时间范围,此时策略评估会发生变化,变为:
[ \rho_{\gamma}(\pi; s) = E_{(a,s,r)\sim(\pi,P,R)} \sum_{t = 1}^{\infty} \gamma^t r_t ]
其中 γ < 1。这种设置和硬时间范围并不完全等价,但有类似结果可证明,此时 1/(1 - γ) 会取代 T 的角色,同时算法也会有轻微改动。
- 目标改变 :可以有这样一种算法,它能处理探索和利用,然后回顾经验轨迹,将一部分动作标记为“探索动作”,并保证其余动作遵循 ε - 最优策略。对已知算法做些小改动,在这种情况下似乎也可行。
1.2 替代设置
通过对世界做出额外假设,形成了一些已知的基本设置变体,包括:
- 因子化 MDPs
- 度量 MD
超级会员免费看
订阅专栏 解锁全文
780

被折叠的 条评论
为什么被折叠?



