经典条件反射的TD模型:响应地形与大脑实现
1. 经典条件反射概述
经典条件反射是一种强化学习形式,其中条件反应(CR)携带了关于强化事件(非条件刺激,US)临近性和时间安排的信息。通常,条件反应的幅度在条件刺激(CS)开始到非条件刺激出现的区间内逐渐增加,在非条件刺激出现时达到峰值,随后下降。这种条件反应的地形和时间特征,推动了学习规则的发展,这些规则在人工系统的预测和控制领域得到了应用。
2. 自适应批评家与TD模型
自适应批评家为行动者提供基于未来强化预测的即时评估反馈。例如,在平衡杆问题中,批评家会提前告知负责生成控制信号的智能体,当前系统状态在不采取改善行动时导致惩罚的可能性。在经典条件反射的背景下,自适应批评家被称为巴甫洛夫强化的时间导数模型,即TD模型。
TD模型是Sutton和Barto(1990)所称的Y强化学习理论的一部分,其基本形式为:
[
\Delta V_{i}=\alpha_{i}\beta X_{i}\gamma
]
其中,(\Delta V_{i})是CS( i)的关联值变化,(\alpha {i})和(\beta)是速率参数((0 < \alpha_{i},\beta < 1)),(X_{i})代表CS(_i)的显著性和可关联性(资格性),(\gamma)代表强化,在时间导数模型中,强化是时间(t)的响应或输出(Y(t))与前一时间步(Y(t - \Delta t))的响应或输出之差的函数:
[
\gamma = Y(t) - Y(t - \Delta t)
]
超级会员免费看
订阅专栏 解锁全文

690

被折叠的 条评论
为什么被折叠?



