AI Day直播 | MemoryVLA:助力长时序机器人操作任务

MemoryVLA:长时序机器人操作框架

点击下方卡片,关注“具身智能之心”公众号

>>直播和内容获取转到具身智能之心知识星球

点击按钮预约直播

时序context对于机器人操作至关重要,因为此类任务本质上是非马尔可夫性的,然而主流的视觉-语言-动作(VLA)模型通常忽略这一点,并在长周期、具有时序依赖性的任务上表现不佳。

认知科学表明,人类依赖工作记忆(working memory)来缓冲短期存在的表征以进行即时控制,而海马体系统(hippocampal system)则保存过去经验的逐字细节(verbatim episodic details)和语义要点(semantic gist)以形成长期记忆。受这些机制的启发,本文提出了 MemoryVLA,一个用于长周期机器人操作的认知-记忆-动作(Cognition-Memory-Action)框架。一个预训练的 VLM 将观测编码成形成工作记忆的感知token(perceptual tokens)和认知token(cognitive tokens),而一个感知-认知记忆库(Perceptual-Cognitive Memory Bank)则存储从中巩固(consolidated)的低层级细节和高层级语义。工作记忆从记忆库中检索与决策相关的条目,将其与当前token自适应地融合,并通过合并冗余来更新记忆库。利用这些token,一个记忆条件化的扩散动作专家(memory-conditioned diffusion action expert)生成具有时序感知能力的动作序列。

论文标题:MemoryVLA: Perceptual-Cognitive Memory in Vision-Language-Action Models for Robotic Manipulation

论文链接:https://arxiv.org/abs/2508.19236

项目主页:https://shihao1895.github.io/MemoryVLA

分享介绍

更多精彩回顾

🚀 直播精华看不够?完整版深度内容已独家上线知识星球「具身智能之心」!涵盖所有技术细节、QA及未公开彩蛋。深度解析!

灵巧手的设计与难题!为什么它是打通“手-眼-脑”感知闭环的关键技术?

何为Agent?在思想、学术与工程领域探寻“好用”真义

保持精度,提升速度!Spec-VLA:首个专为VLA推理加速设计的推测解码框架

CMU最新!跨实体世界模型助力小样本机器人学习

干货满满,快来加入

END

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值