17、适应性多巴胺能神经元：环境刺激食欲价值的报告者

最新推荐文章于 2025-11-07 10:52:55 发布

Mars5

最新推荐文章于 2025-11-07 10:52:55 发布

阅读量12

点赞数

CC 4.0 BY-SA版权

分类专栏：神经网络与认知的桥梁文章标签：多巴胺能神经元强化学习奖励预测误差

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/mars5/article/details/154865652

神经网络与认知的桥梁专栏收录该内容

27 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

适应性多巴胺能神经元：环境刺激食欲价值的报告者

强化学习基础

强化学习是经验改变行为反应的基本方式。在强化学习中，变化依赖于一个随时间变化的全局反馈信号，该信号除了能衡量反应在某一时刻的整体特征外，不包含关于反应的其他信息。

从行为层面来看，某一反应在特定环境中再次出现的可能性，取决于该反应在该环境中先前产生的后果。在细胞层面，当突触前和突触后的神经元共同活动，并伴有神经调节剂（如多巴胺）时，突触效能会发生改变。神经调节剂由从中脑核团非特异性投射到皮质和皮质下区域的神经系统释放。像饥饿动物的食物这类能强化行为的刺激，会激活中脑核团的神经元，导致神经调节剂的大量释放。最终，效能改变最大的突触，是那些在神经调节剂出现时最可靠地共同活动的神经元之间的突触，这些突触位于介导强化物出现之前的环境 - 行为关系的通路上。

强化学习存在两个前提条件：时间连续性和差异。时间连续性在行为、神经和细胞层面的关键事件中都有体现。而强化物引发的差异作用，最初在行为层面被发现，如今在神经层面的相关过程也有了新的见解，不过细胞层面仍有许多待探索之处。

强化学习面临着一些挑战，例如环境介导的强化物常常延迟，超出了时间连续性的要求，以及强化物如何选择涉及复杂反应形态和长时间动作序列的行为。

多巴胺能神经元与环境刺激价值

中脑多巴胺能神经元在行为猴中能够检测和处理对主体行为具有食欲价值的环境刺激。大多数多巴胺能神经元在呈现具有食欲价值的刺激后，会出现相当一致且短暂的激活，这些刺激包括初级奖励和预测此类奖励的条件刺激。而厌恶或无害刺激通常不会激活多巴胺能神经元，即使是与食欲刺激在物理上非常相似、在时间和情境上接近的中性和厌恶刺激，也只会引起较小的激活。

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。