工作记忆工具包(WMtk):助力机器人感知学习的强化学习利器
1. 工作记忆工具包(WMtk)概述
WMtk 是由范德堡大学的 David Noelle 博士及其博士生 Joshua Phillips 创建的一组软件工具,全称为 NSF ITR 机器人 - 前额叶皮质工作记忆工具包(NSF ITR Robot - PFC Working Memory Toolkit)。其主要用途是开发能够轻松且紧密集成到机器人控制系统中的工作记忆系统,以执行目标导向的延迟响应任务。
1.1 工作记忆系统的学习机制
该工作记忆系统借助大脑多巴胺(DA)系统与前额叶皮质(PFC)相互作用的模型,学会识别值得保留的信息块。其神经计算模型基于强化学习,即对刺激或动作的学习完全基于与之相关的奖励和惩罚(Sutton 和 Barto 1990)。与监督学习不同,强化学习的监督程度极低,因为在特定情况下应采取何种行动并未明确告知,而是必须根据所给予的强化来确定。
1.2 强化学习的分类
强化学习主要分为两类:
- 即时强化 :在采取行动后立即给予强化,这种情况下学习相对容易。
- 延迟强化 :奖励或惩罚取决于整个动作序列,因此部分或全部延迟到序列完成后才给予。这种情况下学习更为困难,因为序列中每个步骤的适当动作学习必须基于对未来奖励的预期。我们主要关注的是延迟强化这种情况。
2. WMtk 接口
WMtk 具有通用性和灵活性,可用于多种机器人平台。它提供了广泛的 API,有助于构建利用受生物启发的工作记忆组件的系统。作为用
超级会员免费看
订阅专栏 解锁全文
33

被折叠的 条评论
为什么被折叠?



