21、学习与行动选择中预测机制的生物学基础

学习与行动选择中预测机制的生物学基础

在动物的生存与发展过程中,预测未来重要事件的能力至关重要。无论是寻找食物、躲避危险,还是寻找伴侣,都需要动物能够根据当前的感官信息对未来做出准确的预测。而在学习和行动选择中,生物体内的一些系统发挥着关键作用。本文将深入探讨这些系统如何构建和传递预测信息,以及它们在决策行为中的应用。

1. 背景介绍

动物预测未来显著刺激的能力依赖于预测机制。心理实验表明,脊椎动物和无脊椎动物都具备预测未来重要事件的能力,并能基于这些预测选择合适的行动。然而,产生、评估和利用这些预测的神经机制尚不清楚。

在脊椎动物和无脊椎动物中,都存在与奖励和显著性处理相关的神经元系统。在脊椎动物大脑中,神经调节系统被认为能够报告世界中事件的显著性和情感效价。这些信息部分由广泛分布的轴突系统携带,它们将神经递质如去甲肾上腺素、乙酰胆碱、多巴胺和血清素传递到目标区域。这些轴突系统起源于中脑和基底前脑的小核,有时被统称为弥散上行系统。无脊椎动物也有类似的神经元,它们对奖励性刺激做出反应,并将神经调节剂传递到广泛的目标区域。

2. 时间差分模型

2.1 计算问题

时间差分(TD)模型是一种用于学习预测的算法。在时间 t,设 x(t) 是一个向量,其分量 xi(t) 表示刺激 i 在时间 t 的存在或不存在。动物在时间 t 还会收到一个标量奖励 r(t)。TD 模型的计算目标是使用当前刺激 x(t) 来预测从时间 t 开始的长期折扣奖励 V(t):
[V(t) = \sum_{s>t} \gamma^{s - t} r(s) = \gamma r(t + 1) + \gamma^2 r(t + 2) +

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值