11、强化学习与情感计算：探索人类般智能的路径

最新推荐文章于 2025-09-13 13:25:51 发布

秃然暴富

最新推荐文章于 2025-09-13 13:25:51 发布

阅读量51

点赞数

CC 4.0 BY-SA版权

分类专栏：情感计算：科技与人文的融合文章标签：强化学习情感计算智能体

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/vscode6remote/article/details/151694815

情感计算：科技与人文的融合专栏收录该内容

21 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

强化学习与情感计算：探索人类般智能的路径

1. 强化学习基础与人类学习差异

在学习研究领域，斯金纳认为反射是自动且无需学习的行为，而操作行为则处于意识控制之下。强化学习框架的目标是模拟人类和动物的学习方式。尽管计算机科学取得了巨大进步，计算机在很多方面具备超越人类的能力，但人类和算法的学习方式仍存在很大差距。人类倾向于快速做出决策，从相对较少的示例中学习，轻松管理多个目标并在不同领域之间转移技能。这可能是因为人类拥有多层次的情感智能，使我们能够凭借“直觉”在信息不完整的情况下迅速做出相对较好的选择。

2. 强化学习框架的扩展

2.1 建模智能体、环境和评判器

强化学习问题的核心是，一个有目标的智能体与环境进行交互，并接收表明其正在实现目标的奖励信号。智能体和环境之间的边界可以有多种定义方式，但关键在于智能体不应直接控制环境，否则它可能会为任何行动无限给自己奖励，从而使学习变得不必要。在建模智能体 - 环境边界时，需要考虑智能体的控制边界。另外，框架建模还需考虑价值函数的“存储”位置。大多数强化学习方法使用无记忆过程来建模智能体的决策，但价值函数可以看作是对状态评估的“记忆”。在一些模型中，价值函数评估器是一个独立的实体，称为“评判器”，并拥有自己的记忆。例如，在萨顿和巴托用于时间差分学习的演员 - 评判器架构，以及辛格等人设计的受生物启发的框架中的内部评判器。在辛格的模型中，评判器位于智能体和环境之间的中间层，内部环境负责解释来自外部环境的信号，并由内部环境中的评判器为智能体提供奖励。

2.2 多层情感评判器

我们提出，基于生理感觉并最终由认知管理的对环境的情感解释，是理解人类如何学习和管理多个目标的有用模型

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。