21、学习与行动选择中预测机制的生物学基础

Mars5

于 2025-11-09 16:40:40 发布

阅读量10

点赞数

CC 4.0 BY-SA版权

分类专栏：神经网络与认知的桥梁文章标签：时间差分模型 TD误差预测机制

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/mars5/article/details/154865664

神经网络与认知的桥梁专栏收录该内容

27 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

学习与行动选择中预测机制的生物学基础

在动物的生存与发展过程中，预测未来重要事件的能力至关重要。无论是寻找食物、躲避危险，还是寻找伴侣，都需要动物能够根据当前的感官信息对未来做出准确的预测。而在学习和行动选择中，生物体内的一些系统发挥着关键作用。本文将深入探讨这些系统如何构建和传递预测信息，以及它们在决策行为中的应用。

1. 背景介绍

动物预测未来显著刺激的能力依赖于预测机制。心理实验表明，脊椎动物和无脊椎动物都具备预测未来重要事件的能力，并能基于这些预测选择合适的行动。然而，产生、评估和利用这些预测的神经机制尚不清楚。

在脊椎动物和无脊椎动物中，都存在与奖励和显著性处理相关的神经元系统。在脊椎动物大脑中，神经调节系统被认为能够报告世界中事件的显著性和情感效价。这些信息部分由广泛分布的轴突系统携带，它们将神经递质如去甲肾上腺素、乙酰胆碱、多巴胺和血清素传递到目标区域。这些轴突系统起源于中脑和基底前脑的小核，有时被统称为弥散上行系统。无脊椎动物也有类似的神经元，它们对奖励性刺激做出反应，并将神经调节剂传递到广泛的目标区域。

2. 时间差分模型

2.1 计算问题

时间差分（TD）模型是一种用于学习预测的算法。在时间 t，设 x(t) 是一个向量，其分量 xi(t) 表示刺激 i 在时间 t 的存在或不存在。动物在时间 t 还会收到一个标量奖励 r(t)。TD 模型的计算目标是使用当前刺激 x(t) 来预测从时间 t 开始的长期折扣奖励 V(t)：
[V(t) = \sum_{s>t} \gamma^{s - t} r(s) = \gamma r(t + 1) + \gamma^2 r(t + 2) +

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。