AI Day直播 | MemoryVLA：助力长时序机器人操作任务

MemoryVLA：长时序机器人操作框架

最新推荐文章于 2025-12-03 20:31:34 发布

转载最新推荐文章于 2025-12-03 20:31:34 发布 · 137 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247677389&idx=2&sn=bae73497ee905a3cc056d148afd4d482&chksm=cf9d0e6f4fafd2419302418f9be75d90eacf9ed02f8e53a84fa7c0ec1b8edb3d219e40ec9a83&scene=126&sessionid=0

文章标签：

#人工智能

点击下方卡片，关注“具身智能之心”公众号

>>直播和内容获取转到→具身智能之心知识星球

点击按钮预约直播

时序context对于机器人操作至关重要，因为此类任务本质上是非马尔可夫性的，然而主流的视觉-语言-动作（VLA）模型通常忽略这一点，并在长周期、具有时序依赖性的任务上表现不佳。

认知科学表明，人类依赖工作记忆（working memory）来缓冲短期存在的表征以进行即时控制，而海马体系统（hippocampal system）则保存过去经验的逐字细节（verbatim episodic details）和语义要点（semantic gist）以形成长期记忆。受这些机制的启发，本文提出了 MemoryVLA，一个用于长周期机器人操作的认知-记忆-动作（Cognition-Memory-Action）框架。一个预训练的 VLM 将观测编码成形成工作记忆的感知token（perceptual tokens）和认知token（cognitive tokens），而一个感知-认知记忆库（Perceptual-Cognitive Memory Bank）则存储从中巩固（consolidated）的低层级细节和高层级语义。工作记忆从记忆库中检索与决策相关的条目，将其与当前token自适应地融合，并通过合并冗余来更新记忆库。利用这些token，一个记忆条件化的扩散动作专家（memory-conditioned diffusion action expert）生成具有时序感知能力的动作序列。

论文标题：MemoryVLA: Perceptual-Cognitive Memory in Vision-Language-Action Models for Robotic Manipulation

论文链接：https://arxiv.org/abs/2508.19236

项目主页：https://shihao1895.github.io/MemoryVLA

分享介绍