10、强化学习与情感计算

强化学习与情感计算

1. 引言

情感在人类决策中扮演着重要角色,它似乎提供了一种在信息不完整时决定何时采取行动的机制。关于情感的产生和作用,进化理论给出了一种关键的解释。该理论认为,情感是作为一种预认知方式来解释感官数据而发展起来的,例如“战斗”(愤怒)或“逃跑”(恐惧)等决策能够快速做出,从而增加生物体的生存机会。基本的“感觉”,如饥饿、口渴和疲劳,被认为是情感的基础,是维持体内平衡所必需的感官感知的总结。

同时,人们也在探索将强化学习框架扩展,以纳入模拟情感功能的结构,如赫尔驱力、感觉、情绪和心境等。这些情感功能用于激励智能体,并允许同时存在多个目标。接下来,我们将分别介绍强化学习和情感计算的关键概念。

2. 强化学习

2.1 强化学习概述

强化学习是机器学习的一个分支,其问题设定为智能体与环境进行交互以实现目标。智能体可以在环境中采取行动,这些行动会导致奖励和状态的改变。在某个时间“t”,智能体处于状态 $s_t$,并刚刚收到即时奖励 $r_t$。智能体决定采取行动 $a_t$,环境则会反馈信号,表明智能体现在处于状态 $s_{t + 1}$,并给予智能体新的即时奖励 $r_{t + 1}$。

智能体事先对环境一无所知,为了学习在给定状态下选择行动的最佳策略,智能体需要先探索环境。为了学习最优策略,智能体必须执行许多行动、访问许多状态并获得许多奖励。在大多数 episodic 强化学习问题中,智能体可能需要执行数百甚至数千次任务(如迷宫导航任务)才能学习到最优策略。这是因为智能体可能不会在每次行动后直接获得奖励,有时甚至需要完成整个任务才能获得任何奖励。智能体需要将奖励的价值反向传播到导致该奖励的行动序列中

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值