学习与行动选择中预测机制的生物学基础
在动物的生存与发展过程中,预测未来重要事件的能力至关重要。无论是寻找食物、躲避危险,还是寻找伴侣,都需要动物能够根据当前的感官信息对未来做出准确的预测。而在学习和行动选择中,生物体内的一些系统发挥着关键作用。本文将深入探讨这些系统如何构建和传递预测信息,以及它们在决策行为中的应用。
1. 背景介绍
动物预测未来显著刺激的能力依赖于预测机制。心理实验表明,脊椎动物和无脊椎动物都具备预测未来重要事件的能力,并能基于这些预测选择合适的行动。然而,产生、评估和利用这些预测的神经机制尚不清楚。
在脊椎动物和无脊椎动物中,都存在与奖励和显著性处理相关的神经元系统。在脊椎动物大脑中,神经调节系统被认为能够报告世界中事件的显著性和情感效价。这些信息部分由广泛分布的轴突系统携带,它们将神经递质如去甲肾上腺素、乙酰胆碱、多巴胺和血清素传递到目标区域。这些轴突系统起源于中脑和基底前脑的小核,有时被统称为弥散上行系统。无脊椎动物也有类似的神经元,它们对奖励性刺激做出反应,并将神经调节剂传递到广泛的目标区域。
2. 时间差分模型
2.1 计算问题
时间差分(TD)模型是一种用于学习预测的算法。在时间 t,设 x(t) 是一个向量,其分量 xi(t) 表示刺激 i 在时间 t 的存在或不存在。动物在时间 t 还会收到一个标量奖励 r(t)。TD 模型的计算目标是使用当前刺激 x(t) 来预测从时间 t 开始的长期折扣奖励 V(t):
[V(t) = \sum_{s>t} \gamma^{s - t} r(s) = \gamma r(t + 1) + \gamma^2 r(t + 2) +
超级会员免费看
订阅专栏 解锁全文
1876

被折叠的 条评论
为什么被折叠?



