一种具备长期记忆的多模态智能体

https://m3-agent.github.io

1 引言

试想未来的家用机器人无需明确指令就能自主完成家务 —— 它必然是通过日常经验掌握了家中的操作规则。清晨,它无需询问 “要咖啡还是茶” 就为你递上一杯咖啡,因为通过长期互动,它已逐渐形成对你的记忆,记录下你的偏好与习惯。对于多模态智能体而言,要达到这样的智能水平,本质上依赖三项核心能力:(1)通过多模态传感器持续感知世界;(2)将经验存储于长期记忆,并逐步构建关于环境的知识;(3)基于积累的记忆进行推理,指导自身行动。
为实现这一目标,本文提出 M3-Agent—— 一种具备长期记忆的全新多模态智能体框架。该智能体通过两个并行流程工作:记忆流程(Memorization) 与控制流程(Control)。

记忆流程持续感知实时多模态输入,构建并更新长期记忆
控制流程解析外部指令,基于存储的记忆进行推理并执行相应任务

1.1 记忆流程的核心设计

在记忆流程中,M3-Agent 处理输入的视频流,通过生成两种类型的记忆(类比人类认知系统),同时捕捉细粒度细节与高层抽象信息:

情景记忆(Episodic Memory):记录视频中观察到的具体事件
例如 “Alice 接过咖啡并说‘早上没有这个可不行’”,“Alice 将空瓶子扔进绿色垃圾桶”
这类记忆聚焦 “具体何时、何地发生了何事”

语义记忆(Semantic Memory):从片段中提炼通用知识,不依赖具体场景
例如 “Alice 喜欢早上喝咖啡”,“绿色垃圾桶用于回收”
这类记忆形成智能体对世界的结构化认知

The generated memories are then stored in long-term memory, which supports multimodal information such as faces, voices and textual knowledge. Moreover, the memory is organized in an entity-centric structure.
For example, information related to the same person (e.g., their face, voice and associated knowledge) is
connected in a graph format, as shown in Figure 1. These connections are incrementally established as the
agent extracts and integrates semantic memory.
生成的记忆存储于长期记忆模块,支持人脸、声音、文本知识等多模态信息。更关键的是,记忆以实体为中心的结构组织
例如,与 “Alice” 相关的人脸特征(<face_0>)、声音特征(<voice_3>)、相关知识(偏好:“爱喝黑咖啡”)会以图节点及边的形式关联
这些关联并非预先定义,而是随着智能体提取、整合语义记忆逐步建立,确保对实体的认知一致性

1.2 控制流程的核心设计

在控制流程中,M3-Agent 接收外部指令后,会自主执行多轮推理并检索记忆。与传统 “单轮检索增强生成(RAG)”[20](将记忆一次性加载到上下文)不同,M3-Agent 通过强化学习实现多轮迭代记忆检索—— 例如,面对 “Alice 喜欢什么饮品” 的指令,智能体会先检索 “Alice 的身份标识(<face_0 > 对应 < voice_3>)”,再基于该标识检索相关偏好知识,最终生成答案。这种设计能提升复杂任务的成功率,尤其适用于需要多步推理的场景。

During control, M3-Agent leverages(影响力/手段,充分利用) its long-term memory to reason and complete tasks. It autonomously
retrieves relevant information from its long-term memory across different dimensions, such as events or characters. Instead of using single-turn retrieval-augmented generation (RAG,检索增强生成) to load memory into context,
M3-Agent employs reinforcement learning(强化学习) to enable(实现) multi-turn reasoning and iterative memory retrieval(多轮迭代记忆检索)
resulting in higher task success rates.

iterative ˈɪtərətɪv ˈɪtəreɪtɪv ˈɪtərətɪv 迭代的;重复的,反复的
retrieve rɪˈtriːv rɪˈtriːv 检索
employ ɪmˈplɔɪ ɪmˈplɔɪ 雇用;使用,利用;忙于,从事(be employed in);受雇(in the employ of)

1.3 研究挑战与创新

记忆流程的设计面临两项核心挑战,这也是本文的创新突破点:
无限信息处理:传统方法仅能优化架构效率以处理 “更长但有限” 的离线视频,而 M3-Agent 需在线处理 “任意长度” 的多模态流(如机器人持续工作时的感知输入),更贴近人类长期记忆的形成过程。
世界知识构建:传统视频描述任务多聚焦低阶视觉细节(如动作识别),忽略人物身份、实体属性等高阶世界知识,易导致长期上下文的歧义与不一致。M3-Agent 通过实体中心记忆结构,逐步构建丰富的多模态实体表征,确保长期记忆的连贯性。

The memorization task relates to (后面都是修饰的) long video description but goes beyond it, introducing two key challenges:

(1) Infinite information processing. Memorization requires handling infinitely long input streams. Existing methods optimize architectural efficiency to process longer, but still finite, offline videos. In contrast(相反), M3-Agent continuously processes arbitrarily long multimodal streams online, more closely mimicking how human long-term memory forms, through ongoing perception(持续感知) and incremental experience integration(通过持续的感知和增量的经验整合).

(2) World knowledge construction. Traditional video description often focuses on low-level visual details while overlooking(忽略) high-level world knowledge such as character identity and entity attributes, which may lead to ambiguity(模棱两可) and inconsistency in long-term contexts. M3-Agent addresses this by incrementally building world knowledge through an entity-centric memory structure(实体中心记忆结构). It forms rich, multimodal representations(多模态表征) of key entities, enabling coherent and consistent long-term memory.

mimicking ˈmɪmɪkɪŋ ˈmɪmɪkɪŋ 仿制,模仿;模仿;戏弄(mimic 的 ing 形式)

contrast ˈkɒntrɑːst ˈkɑːntræst
差异,对比;对照物,明显不同的事物;(摄影或绘画中的)颜色反差,明暗对比;(电视屏幕的)图像明暗对比度,反差
对比,对照;显出明显的差异,形成对比

processes ˈprəʊsesɪz ˈprɑːsesɪz
过程;进程(process 的复数)
处理;加工;审核,审阅;(计算机)数据处理;列队前进(process 的第三人称单数)

arbitrarily ˌɑːbɪˈtrerəli; ˈɑːbɪtrəli ˌɑːrbɪˈtrerəli
随意地,任意地;武断地,专横地

ambiguity 模棱两可
ˌæmbɪˈɡjuːəti; ˌæmbɪˈɡjuːɪti
ˌæmbɪˈɡjuːəti; ˌæmbɪˈɡjuːɪti
模棱两可,不明确;含混不清的语句;一语多义;暧昧,难以理解的感情(或想法)

coherent
kəʊˈhɪərənt
koʊˈhɪrənt
有条理的,连贯的;说话条理清晰的,易于理解的;团结一致的,凝聚的;(波)相干的

6 结论与未来工作

本文提出 M3-Agent—— 一种具备长期记忆的多模态智能体框架,通过 “实体中心多模态记忆” 与 “强化学习多轮推理”,实现了接近人类的记忆与推理能力;同时构建 M3-Bench 基准,填补了多模态智能体长期记忆评估的空白。

未来工作将聚焦两点:
1)增强语义记忆的注意力机制,实现 “选择性记忆”(优先记忆任务相关细节)
2)优化视觉记忆形式(如引入关键帧快照),提升空间推理能力

个人理解:选择性记忆,不就又和人的记忆一样了,该怎么去回忆落下的东西呢

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值