点击下方卡片,关注“具身智能之心”公众号
>>直播和内容获取转到→具身智能之心知识星球
点击按钮预约直播
时序context对于机器人操作至关重要,因为此类任务本质上是非马尔可夫性的,然而主流的视觉-语言-动作(VLA)模型通常忽略这一点,并在长周期、具有时序依赖性的任务上表现不佳。
认知科学表明,人类依赖工作记忆(working memory)来缓冲短期存在的表征以进行即时控制,而海马体系统(hippocampal system)则保存过去经验的逐字细节(verbatim episodic details)和语义要点(semantic gist)以形成长期记忆。受这些机制的启发,本文提出了 MemoryVLA,一个用于长周期机器人操作的认知-记忆-动作(Cognition-Memory-Action)框架。一个预训练的 VLM 将观测编码成形成工作记忆的感知token(perceptual tokens)和认知token(cognitive tokens),而一个感知-认知记忆库(Perceptual-Cognitive Memory Bank)则存储从中巩固(consolidated)的低层级细节和高层级语义。工作记忆从记忆库中检索与决策相关的条目,将其与当前token自适应地融合,并通过合并冗余来更新记忆库。利用这些token,一个记忆条件化的扩散动作专家(memory-conditioned diffusion action expert)生成具有时序感知能力的动作序列。
论文标题:MemoryVLA: Perceptual-Cognitive Memory in Vision-Language-Action Models for Robotic Manipulation
论文链接:https://arxiv.org/abs/2508.19236
项目主页:https://shihao1895.github.io/MemoryVLA
分享介绍

更多精彩回顾
🚀 直播精华看不够?完整版深度内容已独家上线知识星球「具身智能之心」!涵盖所有技术细节、QA及未公开彩蛋。深度解析!
灵巧手的设计与难题!为什么它是打通“手-眼-脑”感知闭环的关键技术?
保持精度,提升速度!Spec-VLA:首个专为VLA推理加速设计的推测解码框架
干货满满,快来加入
END
MemoryVLA:长时序机器人操作框架
926

被折叠的 条评论
为什么被折叠?



