强化学习与情感计算:探索人类般智能的路径
1. 强化学习基础与人类学习差异
在学习研究领域,斯金纳认为反射是自动且无需学习的行为,而操作行为则处于意识控制之下。强化学习框架的目标是模拟人类和动物的学习方式。尽管计算机科学取得了巨大进步,计算机在很多方面具备超越人类的能力,但人类和算法的学习方式仍存在很大差距。人类倾向于快速做出决策,从相对较少的示例中学习,轻松管理多个目标并在不同领域之间转移技能。这可能是因为人类拥有多层次的情感智能,使我们能够凭借“直觉”在信息不完整的情况下迅速做出相对较好的选择。
2. 强化学习框架的扩展
2.1 建模智能体、环境和评判器
强化学习问题的核心是,一个有目标的智能体与环境进行交互,并接收表明其正在实现目标的奖励信号。智能体和环境之间的边界可以有多种定义方式,但关键在于智能体不应直接控制环境,否则它可能会为任何行动无限给自己奖励,从而使学习变得不必要。在建模智能体 - 环境边界时,需要考虑智能体的控制边界。另外,框架建模还需考虑价值函数的“存储”位置。大多数强化学习方法使用无记忆过程来建模智能体的决策,但价值函数可以看作是对状态评估的“记忆”。在一些模型中,价值函数评估器是一个独立的实体,称为“评判器”,并拥有自己的记忆。例如,在萨顿和巴托用于时间差分学习的演员 - 评判器架构,以及辛格等人设计的受生物启发的框架中的内部评判器。在辛格的模型中,评判器位于智能体和环境之间的中间层,内部环境负责解释来自外部环境的信号,并由内部环境中的评判器为智能体提供奖励。
2.2 多层情感评判器
我们提出,基于生理感觉并最终由认知管理的对环境的情感解释,是理解人类如何学习和管理多个目标的有用模型
超级会员免费看
订阅专栏 解锁全文
762

被折叠的 条评论
为什么被折叠?



