机器学习中的贝叶斯强化学习、束搜索与行为克隆
1. 贝叶斯强化学习
1.1 定义与背景
贝叶斯强化学习将强化学习建模为贝叶斯学习问题。它可追溯到 20 世纪 50 至 60 年代,当时研究人员在马尔可夫决策过程(MDP)形式化后,考虑控制具有不确定转移和奖励概率的马尔可夫过程,这等价于强化学习。贝叶斯学习通过概率推理进行,自然地与决策理论相结合。
与其他强化学习方法相比,贝叶斯强化学习使用概率分布(而非点估计)来全面捕捉不确定性,这使学习者能做出更明智的决策,有可能用更少的数据更快地学习,还能自然地优化探索/利用权衡。此外,先验分布的使用便于编码领域知识,学习过程能以自然且有原则的方式利用这些知识。
1.2 学习方法结构
- 马尔可夫决策过程(MDP) :MDP 可由元组 $\langle S, A, T \rangle$ 形式化,其中 $S$ 是状态集,$A$ 是动作集,$T(s, a, s’) = Pr(s’|s, a)$ 是转移分布,表示在状态 $s$ 执行动作 $a$ 后到达状态 $s’$ 的概率。设 $s_r$ 表示状态的奖励特征,$Pr(s’_r|s, a)$ 是在状态 $s$ 执行动作 $a$ 获得奖励 $r$ 的概率。策略 $\pi: S \to A$ 是从状态到动作的映射。对于给定的折扣因子 $0 \leq \gamma \leq 1$ 和时间范围 $h$,策略 $\pi$ 的值 $V^{\pi}$ 是执行该策略时获得的预期折扣总奖励。
- 强化学习问题 :强化学习关注在转移(和奖励)概率 $T$ 未知(或不确
超级会员免费看
订阅专栏 解锁全文
113

被折叠的 条评论
为什么被折叠?



