22、强化学习中训练的作用

Mars5

于 2025-11-10 09:54:46 发布

阅读量9

点赞数

CC 4.0 BY-SA版权

分类专栏：神经网络与认知的桥梁文章标签：强化学习训练智能体人类训练

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/mars5/article/details/154865673

神经网络与认知的桥梁专栏收录该内容

27 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

强化学习中训练的作用

强化学习基础

在强化学习里，学习智能体尝试在需选择一系列动作的任务中提升自身表现。智能体通过对自身动作后果的试错体验来获取任务相关知识，信息来源是自动评判器，以偶尔反馈的形式告知智能体当前所处状态的合意性。

在多步任务的每个连续时间步，学习智能体依据当前策略（即任务当前状态与动作的映射）挑选动作，执行所选动作后改变任务状态。此时，评判器可能会给智能体一个标量强化信号，表明新状态的价值，该信号可能源于评判器内部机制或当前动作的环境后果。智能体的目标是改变动作选择策略，使自己在学习过程中更少进入不合意状态，更多进入合意状态，也就是调整策略以增加正信号频率、减少负信号频率。

像演员 - 评判家方法和 Q - 学习等强化学习方法，旨在让学习智能体仅基于评判器的标量反馈制定策略。许多研究者已通过这些方法取得成功，但评判器提供的训练信息可能微弱且稀疏，通常仅在任务完成时才出现。例如，执行多个动作后，评判器可能告知智能体所达状态不合意，却不提供其他任务信息，如该执行哪个动作、哪些动作导致收到反馈，或哪种动作序列可能更好，仅提供简单、常延迟的标量反馈。

引入训练智能体

为解决上述问题，可给学习者提供另一个信息源——训练智能体。强化学习的基本组件包括任务、学习智能体和评判器，任务接收动作并产生状态信息，学习智能体接收状态信息和强化信号并产生动作，评判器接收状态信息并产生强化信号。而训练智能体的加入，使其在学习者进行试错行为时，观察任务状态并提供额外信息。需注意，在强化学习中评判器也是训练智能体，但它与学习者的交互限于提供标量反馈，新加入的训练智能体不一定有此限制。

使用人类训练智能体的学习

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。