66、强化学习与集成学习相关知识解析

强化学习与集成学习相关知识解析

1. 强化学习中的高效探索

在强化学习里,高效探索是个关键问题。有定理表明,对于所有算法,存在一个马尔可夫决策过程(MDP),要以至少 1/2 的概率找到 ε - 最优策略,需要进行 Ω(SA) 次探索。这里的 S 代表状态集,A 代表动作集。由于表示一个策略就需要大小为 SA 的查找表,所以这个与算法无关的下界并不令人意外。

1.1 MDP 学习的变体

MDP 学习存在一些细微的变体,这些变体不会对可证明结果的集合产生定性影响。
- 奖励范围调整 :若奖励处于有界范围内,可将其偏移并重新缩放到区间 [0, 1]。
- 软时间范围(折扣) :常见做法是使用软时间范围,此时策略评估会发生变化,变为:
[ \rho_{\gamma}(\pi; s) = E_{(a,s,r)\sim(\pi,P,R)} \sum_{t = 1}^{\infty} \gamma^t r_t ]
其中 γ < 1。这种设置和硬时间范围并不完全等价,但有类似结果可证明,此时 1/(1 - γ) 会取代 T 的角色,同时算法也会有轻微改动。
- 目标改变 :可以有这样一种算法,它能处理探索和利用,然后回顾经验轨迹,将一部分动作标记为“探索动作”,并保证其余动作遵循 ε - 最优策略。对已知算法做些小改动,在这种情况下似乎也可行。

1.2 替代设置

通过对世界做出额外假设,形成了一些已知的基本设置变体,包括:
- 因子化 MDPs
- 度量 MD

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值