强化学习中训练的作用
强化学习基础
在强化学习里,学习智能体尝试在需选择一系列动作的任务中提升自身表现。智能体通过对自身动作后果的试错体验来获取任务相关知识,信息来源是自动评判器,以偶尔反馈的形式告知智能体当前所处状态的合意性。
在多步任务的每个连续时间步,学习智能体依据当前策略(即任务当前状态与动作的映射)挑选动作,执行所选动作后改变任务状态。此时,评判器可能会给智能体一个标量强化信号,表明新状态的价值,该信号可能源于评判器内部机制或当前动作的环境后果。智能体的目标是改变动作选择策略,使自己在学习过程中更少进入不合意状态,更多进入合意状态,也就是调整策略以增加正信号频率、减少负信号频率。
像演员 - 评判家方法和 Q - 学习等强化学习方法,旨在让学习智能体仅基于评判器的标量反馈制定策略。许多研究者已通过这些方法取得成功,但评判器提供的训练信息可能微弱且稀疏,通常仅在任务完成时才出现。例如,执行多个动作后,评判器可能告知智能体所达状态不合意,却不提供其他任务信息,如该执行哪个动作、哪些动作导致收到反馈,或哪种动作序列可能更好,仅提供简单、常延迟的标量反馈。
引入训练智能体
为解决上述问题,可给学习者提供另一个信息源——训练智能体。强化学习的基本组件包括任务、学习智能体和评判器,任务接收动作并产生状态信息,学习智能体接收状态信息和强化信号并产生动作,评判器接收状态信息并产生强化信号。而训练智能体的加入,使其在学习者进行试错行为时,观察任务状态并提供额外信息。需注意,在强化学习中评判器也是训练智能体,但它与学习者的交互限于提供标量反馈,新加入的训练智能体不一定有此限制。
超级会员免费看
订阅专栏 解锁全文
7164

被折叠的 条评论
为什么被折叠?



