17、适应性多巴胺能神经元:环境刺激食欲价值的报告者

适应性多巴胺能神经元:环境刺激食欲价值的报告者

强化学习基础

强化学习是经验改变行为反应的基本方式。在强化学习中,变化依赖于一个随时间变化的全局反馈信号,该信号除了能衡量反应在某一时刻的整体特征外,不包含关于反应的其他信息。

从行为层面来看,某一反应在特定环境中再次出现的可能性,取决于该反应在该环境中先前产生的后果。在细胞层面,当突触前和突触后的神经元共同活动,并伴有神经调节剂(如多巴胺)时,突触效能会发生改变。神经调节剂由从中脑核团非特异性投射到皮质和皮质下区域的神经系统释放。像饥饿动物的食物这类能强化行为的刺激,会激活中脑核团的神经元,导致神经调节剂的大量释放。最终,效能改变最大的突触,是那些在神经调节剂出现时最可靠地共同活动的神经元之间的突触,这些突触位于介导强化物出现之前的环境 - 行为关系的通路上。

强化学习存在两个前提条件:时间连续性和差异。时间连续性在行为、神经和细胞层面的关键事件中都有体现。而强化物引发的差异作用,最初在行为层面被发现,如今在神经层面的相关过程也有了新的见解,不过细胞层面仍有许多待探索之处。

强化学习面临着一些挑战,例如环境介导的强化物常常延迟,超出了时间连续性的要求,以及强化物如何选择涉及复杂反应形态和长时间动作序列的行为。

多巴胺能神经元与环境刺激价值

中脑多巴胺能神经元在行为猴中能够检测和处理对主体行为具有食欲价值的环境刺激。大多数多巴胺能神经元在呈现具有食欲价值的刺激后,会出现相当一致且短暂的激活,这些刺激包括初级奖励和预测此类奖励的条件刺激。而厌恶或无害刺激通常不会激活多巴胺能神经元,即使是与食欲刺激在物理上非常相似、在时间和情境上接近的中性和厌恶刺激,也只会引起较小的激活。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值