11、强化学习与情感计算:探索人类般智能的路径

强化学习与情感计算:探索人类般智能的路径

1. 强化学习基础与人类学习差异

在学习研究领域,斯金纳认为反射是自动且无需学习的行为,而操作行为则处于意识控制之下。强化学习框架的目标是模拟人类和动物的学习方式。尽管计算机科学取得了巨大进步,计算机在很多方面具备超越人类的能力,但人类和算法的学习方式仍存在很大差距。人类倾向于快速做出决策,从相对较少的示例中学习,轻松管理多个目标并在不同领域之间转移技能。这可能是因为人类拥有多层次的情感智能,使我们能够凭借“直觉”在信息不完整的情况下迅速做出相对较好的选择。

2. 强化学习框架的扩展

2.1 建模智能体、环境和评判器

强化学习问题的核心是,一个有目标的智能体与环境进行交互,并接收表明其正在实现目标的奖励信号。智能体和环境之间的边界可以有多种定义方式,但关键在于智能体不应直接控制环境,否则它可能会为任何行动无限给自己奖励,从而使学习变得不必要。在建模智能体 - 环境边界时,需要考虑智能体的控制边界。另外,框架建模还需考虑价值函数的“存储”位置。大多数强化学习方法使用无记忆过程来建模智能体的决策,但价值函数可以看作是对状态评估的“记忆”。在一些模型中,价值函数评估器是一个独立的实体,称为“评判器”,并拥有自己的记忆。例如,在萨顿和巴托用于时间差分学习的演员 - 评判器架构,以及辛格等人设计的受生物启发的框架中的内部评判器。在辛格的模型中,评判器位于智能体和环境之间的中间层,内部环境负责解释来自外部环境的信号,并由内部环境中的评判器为智能体提供奖励。

2.2 多层情感评判器

我们提出,基于生理感觉并最终由认知管理的对环境的情感解释,是理解人类如何学习和管理多个目标的有用模型

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值