2025必备神器!字节M3-Agent全球首发:从记忆原理到多模态实战,一篇吃透智能体未来

为实现多模态智能体的类人长期记忆与推理能力,字节跳动等团队提出M3-Agent——一种具备长期记忆的多模态智能体框架,可实时处理视觉与听觉输入,生成情景记忆(记录具体事件)与语义记忆(提炼常识知识),并以实体为中心的多模态格式组织记忆;同时构建M3-Bench(长视频问答基准,含100个机器人视角视频M3-Bench-robot与920个网络视频M3-Bench-web,覆盖5类记忆推理问题)用于评估。通过强化学习(RL) 训练,M3-Agent在M3-Bench-robot、M3-Bench-web、VideoMME-long三个基准上,分别比最强基线(Gemini-GPT4o-Hybrid)提升6.7%、7.7%、5.3% 的准确率;消融实验显示,移除语义记忆或RL训练会导致准确率显著下降(语义记忆移除最高降19.2%,RL训练提升最高10.0%),验证了关键组件的必要性。

  1. 研究背景与核心目标

  • 背景:现有多模态智能体缺乏类人长期记忆能力,难以通过持续视听感知积累世界知识,且现有长视频问答(LVQA)基准侧重视觉理解,忽略高阶认知能力(如人类理解、跨模态推理)。
  • 目标
  1. 设计具备长期记忆的多模态智能体(M3-Agent),实现“感知(视听输入)-记忆(积累知识)-推理(任务执行)”闭环。
  2. 构建LVQA基准(M3-Bench),专门评估智能体的长期记忆与记忆推理能力。

试想未来某一天,家用机器人无需你给出明确指令,就能自主完成家务;它必然是通过日常经验,逐渐掌握了你家中的操作规则。清晨,它会递给你一杯咖啡,而不会询问“要咖啡还是茶?”——因为它已通过长期互动,慢慢形成了对你的记忆,记录下你的偏好与日常习惯。对于多模态智能体而言,要达到这样的智能水平,本质上依赖三大核心能力:(1)通过多模态传感器持续感知世界;(2)将自身经验存储于长期记忆中,并逐步构建关于环境的知识;(3)基于积累的记忆进行推理,以指导自身行动。

图1 M3-Agent的架构,包括多模态大语言模型(MLLM)和多模态长期记忆。该系统由两个并行过程组成:记忆和控制。在记忆过程中,M3-Agent在线处理视频和音频流,以生成情景和语义记忆。在控制过程中,它通过迭代推理和从长期记忆中检索来执行指令。长期记忆的结构为多模态图。

为实现这一目标,我们提出了M3-Agent——一种具备长期记忆的新型多模态智能体框架。如图1所示,该框架通过两个并行流程运行:

  • 记忆流程(memorization),持续感知实时多模态输入,以构建并更新长期记忆;
  • 控制流程(control),解读外部指令,基于存储的记忆进行推理,并执行相应任务。

在记忆流程中,M3-Agent处理输入的视频流,通过生成两类记忆(类比人类认知系统),同时捕捉细粒度细节与高层抽象信息:

  • 情景记忆(Episodic memory):记录视频中观察到的具体事件。例如,“爱丽丝拿起咖啡并说道:‘早上没有这个可不行。’”以及“爱丽丝将空瓶子扔进绿色垃圾桶。”
  • 语义记忆(Semantic memory):从视频片段中提炼通用知识。例如,“爱丽丝早上偏好喝咖啡”以及“绿色垃圾桶用于回收。”

生成的记忆随后会存储到长期记忆中,该记忆支持人脸、声音、文本知识等多模态信息。此外,记忆以“以实体为中心”的结构组织。例如,与同一人相关的信息(如面部特征、声音、关联知识)会以图的形式关联起来(如图1所示)。这些关联会随着智能体提取并整合语义记忆的过程,逐步建立。

在控制流程中,M3-Agent借助长期记忆进行推理并完成任务。它能自主从长期记忆的不同维度(如事件、人物)中检索相关信息。与采用单轮检索增强生成(RAG)将记忆加载到上下文的方式不同,M3-Agent通过强化学习实现多轮推理与迭代式记忆检索,进而获得更高的任务成功率。

记忆流程的任务与长视频描述任务相关,但又超越了后者,主要面临两大挑战:(1)无限信息处理:记忆流程需处理无限长度的输入流。现有方法通过优化架构效率来处理更长(但仍有限)的离线视频;与之相反,M3-Agent能在线持续处理任意长度的多模态流,通过持续感知与增量式经验整合,更贴近人类长期记忆的形成过程。(2)世界知识构建:传统视频描述任务往往聚焦于低层视觉细节,却忽略人物身份、实体属性等高层世界知识,这可能导致长期语境下的模糊性与不一致性。M3-Agent通过“以实体为中心”的记忆结构,增量式构建世界知识,为关键实体形成丰富的多模态表征,从而实现连贯、一致的长期记忆。

我们在长视频问答(LVQA)任务上对M3-Agent进行评估,该任务中的视频模拟了智能体接收到的多模态输入流(视觉与听觉)。现有多数LVQA基准主要侧重视觉理解(如动作识别、时空感知),却忽略了对真实世界智能体至关重要、依赖长期记忆的高阶认知能力评估,例如人类理解、通用知识提取与跨模态推理。为填补这一空白,我们引入了M3-Bench——一个用于评估多模态智能体长期记忆推理能力的新型LVQA基准。M3-Bench包含两类来源的视频:(1)M3-Bench-robot,由100个从机器人视角录制的真实世界视频组成;(2)M3-Bench-web,包含920个涵盖更广泛内容与场景的YouTube视频。我们定义了五种问题类型(如表1所示),分别针对记忆推理的不同方面。最终,我们为M3-Bench-robot标注了1276个问答对,为M3-Bench-web标注了3214个问答对。

我们在M3-Bench-robot、M3-Bench-web与VideoMME-long三个基准上开展实验。结果显示,通过强化学习训练的M3-Agent在 所有三个基准上均优于所有基线模型。与最强基线模型Gemini-GPT4o-Hybrid(该模型采用M3-Agent框架,通过提示Gemini-1.5-Pro完成记忆生成,提示GPT-4o完成控制流程)相比,M3-Agent在M3-Bench-robot、M3-Bench-web与VideoMME-long上的准确率分别提升了6.7%、7.7%与5.3%。消融实验验证了语义记忆的重要性:移除语义记忆后,M3-Agent在上述三个基准上的准确率分别下降了17.1%、19.2%与13.1%。此外,我们还探究了强化学习训练、跨轮指令与推理模式对控制流程性能的影响:具体而言,强化学习训练使三个基准的准确率分别提升了10.0%、8.0%与9.3%;移除跨轮指令导致准确率分别下降10.5%、5.8%与5.9%;禁用推理模式则使准确率分别下降11.7%、8.8%与9.5%。

本文的主要贡献总结如下:

  • 我们提出了M3-Agent——一种具备长期记忆的多模态智能体新型框架。M3-Agent能持续处理实时多模态输入(视觉与听觉感知),通过生成情景记忆与语义记忆增量式构建世界知识(记忆功能),并基于这些记忆进行推理以完成复杂指令(推理功能)。
  • 我们构建了M3-Bench——一个新型LVQA基准,专门用于评估多模态智能体的记忆有效性与基于记忆的推理能力。
  • 实验表明,通过强化学习训练的M3-Agent,在多个基准上持续优于基于提示的商用模型驱动的智能体。

2 相关工作

2.1 AI智能体的长期记忆

长期记忆是AI智能体的核心能力之一,使其能够保留远距离上下文信息并支持更高级的推理。一种常见的方法是将智能体的完整轨迹(如对话或执行轨迹)直接附加到记忆中。除原始数据外,部分方法还会融入摘要、潜在嵌入或结构化知识表征。近年来,部分系统进一步构建了复杂的记忆架构,让智能体能够更精细地管理记忆。

然而,现有大多数方法主要聚焦于语言模型(LLM)智能体。与之不同,多模态智能体需处理更广泛的输入类型,并在记忆中存储更丰富的多模态内容与概念——这也带来了新的挑战,尤其是在维持长期记忆一致性方面。此外,正如人类通过经验获取世界知识一样,多模态智能体应在记忆中形成内部世界知识,而非仅仅存储经验描述。

2.2 在线视频理解

对于多模态智能体而言,记忆形成与在线视频理解密切相关。在线视频理解是一项具有挑战性的任务,需实时处理视频流并基于过往观察做出决策。传统长视频理解方法(如扩展多模态模型的上下文窗口或压缩视觉 tokens 以扩大时间覆盖范围)无法有效扩展以处理无限长的视频流。在实际场景中(如交互式智能体场景),为每条新指令重新处理全部视频历史数据的计算成本极高,难以实现。

为提升可扩展性,基于记忆的方法引入了记忆模块,用于存储编码后的视觉特征以供后续检索。这类架构适用于在线视频处理,但存在一个根本性局限:难以维持长期一致性。由于这些方法仅存储视觉特征,无法在长时间范围内连贯跟踪实体(如人物身份或动态事件)。

随着大型多模态模型与语言模型的快速发展,“苏格拉底模型”(Socratic Models)框架已成为在线视频理解的一种极具潜力的方法。该方法利用多模态模型生成视频描述,并将其作为基于语言的记忆,从而提升了可扩展性。尽管如此,在处理复杂、动态变化的视频内容时,该框架仍面临维持长期一致性的挑战。

3 数据集

在本节介绍 M3-Bench —— 一个用于评估多模态智能体长期记忆推理能力的长视频问答(LVQA)数据集。M3-Bench中的每个样本均包含一段模拟智能体感知输入的长视频,以及一系列开放式问答对(QA pairs)。该数据集分为两个子集:

  • (1)M3-Bench-robot,包含100段从机器人第一视角录制的真实世界视频;
  • (2)M3-Bench-web,包含920段源自网络的视频,涵盖更丰富的内容与场景。为全面评估智能体回忆过往观察结果及执行基于记忆的推理能力,我们设计了五种不同类型的问题(如表1所示)。总体而言,M3-Bench具有两大特点:(1)视频为长时长真实场景视频,涵盖与多模态智能体部署相关的各类真实生活场景;(2)问题具有挑战性,突破了浅层感知理解的范畴,需要基于长期语境进行复杂推理。

图 2 M3-Bench 的示例。M3-Bench-robot 具有来自真实机器人工作场景的长视频,而 M3-Bench-web 扩展了视频多样性以支持更广泛的评估。问答任务旨在评估多模态智能体构建一致且可靠的长期记忆的能力,以及对该记忆进行有效推理的能力。

问题类型说明及示例
多细节推理(Multi-detail Reasoning)需聚合视频中分散在多个片段的信息。示例:视频中展示的五个物品中,哪一个的起拍价最高?智能体需从五个不同片段中识别并回忆起拍价,然后对比这些价格以确定最高值。
多跳推理(Multi-hop Reasoning)需跨不同片段分步推理以得出结论。示例:他们在去“丁茶”之后,又去了哪家奶茶店?智能体需先定位“去丁茶”的片段,再跟踪后续片段以识别下一家奶茶店。
跨模态推理(Cross-modal Reasoning)需融合多种模态(如视觉和音频)的信息进行推理。示例:(鲍勃向机器人展示一个红色文件夹并说:“机密文件应放入这个文件夹”,随后展示一个白色文件夹并说:“普通文件应放入这个”)机密文件应放入哪个文件夹?智能体需结合视觉线索(文件夹颜色)和对话内容推断正确答案。
人类理解(Human Understanding)需推理与人类相关的属性,如身份、情绪、性格或关系。示例:卢卡斯(Lucas)擅长烹饪吗?视频中未直接给出答案,但智能体需聚合卢卡斯在多个烹饪场景中的行为以推断其烹饪水平。
常识提取(General Knowledge Extraction)评估智能体是否能从具体事件中提取通用知识。示例:(视频中展示某人将不同食品分类放入冰箱的不同层架)哪一层架适合存放蔬菜?智能体需从观察中识别典型的存储规则以正确回答。

表1 M3-Bench中不同问题类型的说明及对应示例

3.1 M3-Bench-robot

机器人是多模态智能体的典型代表。一款通用机器人应能维持长期记忆,并基于记忆进行推理以指导自身行动。例如,机器人在处理观察信息时,可能会记住某人的名字、其外套的放置位置,或是其咖啡偏好。基于长期记忆的推理可支持更高阶的认知功能,如推断某人的性格、理解人物间的关系,或识别周围物体的功能。为系统评估这些能力,我们从机器人视角录制了一组新的视频,并手动标注了对应的问答对。

脚本设计

我们首先为M3-Bench-robot设计了涵盖七个机器人预期工作场景的视频脚本:客厅、厨房、卧室、书房、办公室、会议室及健身房。每个脚本均包含1台机器人与2-4名人类的互动过程。标注人员需设计能体现通用服务机器人所需能力的人机互动场景。

为确保脚本内容的多样性,我们为每个场景设计了多个主题变体。例如,客厅场景的主题可包括“与朋友会面”“家庭对话”“举办感恩节派对”等。标注人员需为每个主题编写一个脚本,以确保脚本覆盖范围广泛且多样性高。具体而言,每个脚本均以一系列离散事件和问题构成。其中部分事件被设计为“参考事件”,包含与后续问题相关的信息。问题可在任意事件之后或脚本末尾提出:当问题位于事件序列中间时,通常与当前情节紧密相关,调整问题位置可能会改变答案或影响难度。表8(§ A.5)提供了一个脚本示例。

视频拍摄

使用真实机器人录制视频面临诸多挑战,如运营成本高、硬件限制多、部署流程复杂。为解决这些问题,我们采用了一种更实用的替代方案:由人类演员模拟机器人行为。该方法简化了数据采集流程,同时保留了机器人第一视角和基准所需的多模态数据质量。

每个脚本需多名演员参与,其中1名演员负责模拟机器人。该演员需佩戴头戴式摄像设备,以捕捉机器人的第一视角视觉和听觉信息,所得 footage 即为M3-Bench-robot中的最终视频。为确保多样性并减少场景偏差,我们招募了67名演员,在51个不同地点进行拍摄,且每个地点录制的视频不超过3段。

我们为每段视频采集了两种音频轨道:第一种由头戴式设备直接录制,反映机器人自然接收到的原始听觉输入(包括环境音和空间声学变化);第二种由演员佩戴的领夹麦克风采集,提供高保真度的语音录音,作为主音频流的补充。

标注

视频录制完成后,标注人员需为每段视频整理问答对。尽管部分问题已在脚本中预先设计,但由于实际拍摄条件的影响,最终视频内容可能与原始脚本存在偏差,导致并非所有预设问题都适用。因此,标注人员需仔细审查每个预设问题,判断其是否应保留、修改或删除,并在必要时提供相应答案。对于所有保留或修改后的问题,标注人员需指定提问的精确时间戳——该时间戳必须早于机器人对应的响应或动作,以避免无意中泄露答案。

除脚本中的预设问题外,标注人员还需新增问题,确保每段视频至少包含12个问答对。所有新增问题也需符合表1中列出的至少一种问题类型。

除问答对构建外,标注人员还需生成字幕以提升数据集的可用性。具体而言,他们需手动标注每个对话片段的开始和结束时间戳,同时记录说话人身份及对话文本转录内容。

M3-Bench-robot标注的完整标注指南、标注人员信息及质量控制细节详见附录A。

3.2 M3-Bench-web

为进一步提升视频多样性,我们参考现有研究方法,从YouTube平台收集了额外视频。

视频收集

视频收集采用“以问题为导向”的方法:标注人员需选择至少能支持设计5个表1所示类型问题的视频。这种策略自然筛选出具有丰富叙事内容和复杂实体间关系的视频,非常适合评估智能体基于长期记忆的推理能力。

为提升视频多样性并避免易标注内容过度集中,我们向标注人员提供了一份视频类别参考清单,重点推荐信息密度高、与真实世界多模态智能体应用相关的类别。标注人员需从每个类别中提交最多20段视频,且可提议新增类别——若作者认为新增类别与现有类别差异显著,则将其纳入清单。最终数据集包含46种不同的视频类型,具体分布如图3所示。

问答标注

收集视频的标注人员需为其收集的每段视频生成至少5个问答对,且每个问题需对应表1中定义的至少一种类型。在M3-Bench-web中,所有问题的时间戳均设置为视频末尾。所有问题需满足“具体、客观、答案唯一且可从视频线索合理推导”的要求,以确保后续评估的有效性和公平性。例如,可从多个角度回答或指代模糊的问题(如“那个男人”“视频中间部分”)均被视为无效。M3-Bench-web的完整标注指南、标注人员信息及质量控制细节详见附录B。

3.3 自动评估

我们将GPT-4o用作M3-Bench的自动评估器,通过提示其将生成答案与对应问题的参考答案进行比较,以评估生成答案的正确性。提示模板详见表18(§ H.1)。

为验证GPT-4o作为评估器的可靠性,我们构建了一个包含100个随机抽样三元组的测试集,每个三元组由“问题、参考答案、模型生成答案(来自我们的方法或不同基线,§ 5.1)”构成。三位作者独立评估每个生成答案的正确性,并将GPT-4o的判断结果与人类标注的多数投票结果进行对比。结果显示,GPT-4o与人类判断的一致性达96%,证实其作为自动评估器的有效性。

基准(Benchmark)视频数量(#Videos)时长(秒)(Len.(s))问答对数量(#QAs)标注方式(Anno.)问题格式(Form.)视频中是否含智能体(Agent Present)是否含跨模态推理问题(Cross-Modal QA)是否含人类理解问题(Human QA)是否含常识问题(Knowledge QA)
EgoSchema [30]5,063180.05,063人工/自动(M/A)封闭式(C)
LongVideoBench [48]3,763473.06,678人工(M)封闭式(C)
HourVideo [2]5002,742.012,976人工/自动(M/A)封闭式(C)
MVBench [23]3,64116.04,000自动(A)封闭式(C)
Video-MME [9]9001,017.92,700人工(M)封闭式(C)
MLVU [60]1,730930.03,102人工/自动(M/A)开放式/封闭式(O/C)
M3-Bench-robot1002,039.91,276人工(M)开放式(O)
M3-Bench-web9201,630.73,214人工(M)开放式(O)

表2 M3-Bench与现有长视频问答基准的关键维度对比:视频数量(#Videos)、平均视频时长(秒)(Len.)、问答对数量(#QAs)、标注方式(Anno.,M/A分别表示人工/自动)、问题格式(Form.,O/C分别表示开放式/封闭式)、视频中是否存在智能体(Agent Present)、是否包含跨模态推理问题(Cross-Modal QA)、是否包含人类理解问题(Human QA)、是否包含常识问题(Knowledge QA)。

4 方法

如图1所示,M3-Agent由多模态大型语言模型(MLLM)与长期记忆模块构成,通过两个并行流程运行:记忆流程(持续处理任意长度的视频流,构建终身记忆)与控制流程(基于长期记忆进行推理,以执行指令)。下文将分别详细介绍长期记忆的存储方式、记忆流程及控制流程。

4.1 长期记忆

长期记忆以外部数据库的形式实现,采用结构化多模态格式(文本、图像、音频)存储信息。具体而言,记忆条目以记忆图(memory graph) 的形式组织:每个节点代表一个独立的记忆项,节点包含唯一ID、模态类型、原始内容、权重、嵌入向量及时间戳等元数据(详见表3);节点间通过无向边连接,捕捉记忆项之间的逻辑关系——这些连接如同“线索”,可助力相关记忆的检索。

智能体通过以下方式构建记忆:增量添加新的文本、图像或音频节点(及连接它们的边),或更新现有节点的内容与权重。记忆构建过程中可能引入冲突信息,为解决这一问题,M3-Agent在推理阶段采用基于权重的投票机制:被频繁强化的记忆条目权重更高,可覆盖权重较低的冲突条目。该机制确保了记忆图长期的稳健性与一致性。

搜索工具

为便于记忆访问,我们提供了一套搜索工具,支持智能体根据特定需求检索相关记忆。具体而言,我们实现了两种不同粒度的搜索机制(详见表4),其详细实现过程参见附录C。

属性(Attribute)描述(Description)
id节点的唯一标识符
type节点的模态类型(如文本、图像、音频)。例如,自然语言记忆以文本节点存储,人脸以图像节点存储,语音对话以音频节点存储
content节点的原始内容,如纯文本、Base64格式图像或Base64格式音频
embedding节点内容的向量表示,用于基于相似度的检索
weight数值型变量,代表节点的置信度
extra_data包含额外元数据(如时间戳)的JSON对象

表3 记忆节点的属性及描述

功能(Function)描述(Description)
search_node接收查询请求,返回Top-k个最相关的节点。支持多模态查询(文本、图像或音频)及特定模态检索
search_clip针对文本查询,检索Top-k个相关视频片段中的记忆,包括情景记忆与语义记忆

表4 长期记忆支持的搜索功能

4.2 记忆流程

如图1所示,记忆流程中,M3-Agent以“片段(clip)”为单位处理输入视频流,生成两类记忆:

  • 情景记忆(Episodic Memory):捕捉原始视频中的视觉与听觉内容(如具体事件);
  • 语义记忆(Semantic Memory):提取通用知识(如人物身份、属性、关系及其他世界知识)。

语义记忆不仅丰富了记忆内容,还提供了额外的检索线索,可提升控制流程的检索效率。

实体表示一致性

构建高质量长期记忆的核心挑战之一,是在任意长时间范围内维持核心概念(如主要人物、物体)表示的一致性。现有方法通常生成基于语言的描述(如“留胡子的男人”“穿红裙子的女人”),但此类文本描述存在固有歧义,长期积累易导致不一致。为解决这一问题,M3-Agent保留原始多模态特征,并在长期记忆中构建持久化的身份表示,为长期一致性提供更稳定、稳健的基础。

具体而言,我们为M3-Agent配备了一套外部工具(包括人脸识别与说话人识别工具):这些工具提取片段中出现人物的人脸与声音特征,并从长期记忆中返回对应的身份信息。对于每个提取的人脸或声音,系统通过search_node函数将其与现有节点关联,若未找到匹配节点,则创建新节点。最终生成的标识符(face_id或voice_id)作为人物的持久化引用。借助全局维护的记忆图这一统一结构,M3-Agent确保了不同片段的局部记忆中人物身份映射的一致性,从而构建连贯的长期记忆。

该方法可推广至更多概念(如关键地点、物体)的长期记忆编码,进一步提升记忆生成的一致性。工具的详细实现参见附录C。

记忆生成

在获取人脸与声音身份后,M3-Agent继续生成情景记忆与语义记忆,且所有人物均需通过其face_id或voice_id引用(例如:“<face_1>戴着红色帽子和蓝色上衣”“<voice_2>对<face_3>说:‘今天过得怎么样?’”)。这一机制确保每个人物都能与长期记忆中存储的物理特征明确关联。

特别地,在语义记忆生成过程中,M3-Agent可通过跨模态推理推断不同实体ID之间的关系(例如:将同属一人的人脸与声音关联)。这些推断出的等价关系可用于更新记忆图中人脸节点与声音节点之间的连接——一旦建立连接,这对节点将被视为同一人物。在检索阶段,相连节点会被统一归属于一个共享的<character_id>,使模型能跨模态更一致地对人物进行推理。

从输出格式来看,M3-Agent生成的情景记忆与语义记忆均为文本条目列表:每个条目作为文本节点存储于记忆图中,实体ID之间的关系则以边的形式表示。如前文所述,冲突信息通过投票机制解决。例如:<voice_3>本应与<face_0>对应,但在部分复杂片段中,系统可能暂时将其与其他人脸关联;随着时间推移,正确关联的权重会不断积累并占据主导,使系统即便在偶尔出现局部错误的情况下,仍能稳健地学习并维持准确知识。

4.3 控制流程

当接收到指令时,控制流程被触发。如图1所示,控制流程中,M3-Agent可自主执行多轮推理,并调用搜索函数从长期记忆中检索相关信息(最多执行H轮)。M3-Agent能独立决定调用何种搜索函数(如调用search_clip检索特定记忆片段,或调用search_node获取某个人物的ID)。

具体而言,M3-Agent中的MLLM可视为策略模型。给定问题与当前长期记忆,控制流程按算法1执行。为支撑该流程,我们设计了三类提示(prompt):(1)会话起始时的系统提示(system prompt),明确整体任务目标;(2)每轮(除最后一轮外)开始时附加的指令提示(instruction prompt),提供问题与详细指导;(3)仅在最后一轮使用的最后一轮提示(last-round prompt),告知智能体这是生成响应的最终机会。具体提示内容参见表22(§ H.3)。

算法1 控制流程

输入(Require):问题、策略模型、长期记忆、最大轮次
输出(Ensure):智能体生成的完整轨迹

1: {role: “system”, content: Format(system_prompt, )},
2: {role: “user”, content: instruction_prompt} ▷ 初始化轨迹
3:
4: while do ▷ 最多执行轮
5:
6: 将{role:“assistant”, content: }追加至
7: action, information Parse() ▷ 从中提取动作与内容
8: if action = “[Search]” then
9: memory Search(, information) ▷ 以内容为查询词检索记忆
10: else
11: Break ▷ 当动作为"[Answer]"时,轨迹结束
12: end if
13:
14: 将{role: “user”, content: memory + instruction_prompt}追加至 ▷ 追加搜索结果与下一> 轮提示
15: if then
16: 将{role: “user”, content: memory + last_round_prompt}追加至
17: end if
18: end while
19: return

4.4 训练

我们采用强化学习对M3-Agent进行优化。尽管记忆流程与控制流程在概念上由单个模型处理,但为实现最优性能,我们训练了两个独立模型:记忆流程依赖强大的多模态理解能力,控制流程则需具备出色的推理能力。因此,我们为两个模型选择了不同的基础模型进行初始化:

  • 记忆模型:基于Qwen2.5-Omni [49](先进的开源多模态模型,支持视觉与音频输入);
  • 控制模型:基于Qwen3 [51](开源大型语言模型,具备强大的推理能力)。
训练数据

训练数据来源于我们拥有训练权限的内部视频数据集,数据收集遵循与M3-Bench-web数据集一致的标注标准。该训练数据集共包含500段长视频(对应26,943个30秒片段)及2,736个问答对。

记忆模型训练

为提升模型生成目标记忆的能力,我们在Qwen2.5-Omni-7b基础上通过模仿学习(Imitation Learning) 训练得到memory-7b-sft模型。训练过程始于构建高质量的合成演示数据集,具体步骤如下:

  1. 将数据集中的每段视频分割为30秒片段;
  2. 通过三阶段流程生成对应的记忆标注:
  • 情景记忆合成:采用“混合标注策略”,联合提示Gemini-1.5-Pro与GPT-4o生成记忆:GPT-4o提供帧级线索(作为先验信息),Gemini-1.5-Pro基于该线索生成描述,两者输出融合后形成更丰富的叙事摘要;
  • 身份等价检测:提出一种自动挖掘“高置信度元片段(meta-clip)”的算法——元片段指长视频中仅包含一张人脸和一个声音的短独白片段,可提供清晰的身份线索以实现人脸-声音配对。建立全局人脸-声音映射后,即可自动标注任意30秒子片段中的人脸-声音关联;
  • 其他语义记忆合成:设计提示模板,从多维度提取语义记忆,确保语义记忆涵盖表10(§ D)中列出的信息类型。

合成演示数据集的详细构建过程参见附录D。该数据集共包含10,952个样本,其中训练样本10,752个,验证样本200个。

模型微调参数:训练3个epoch,学习率,批次大小16,使用16块80GB显存的GPU。

控制模型训练

首先为强化学习训练搭建环境:对数据集中的每段视频,使用memory-7b-sft生成对应的长期记忆;对于任意给定问题,限制智能体仅在该视频生成的记忆中进行检索。

随后,基于control-32b-prompt初始化策略模型,并采用DAPO [52]算法进行训练。对于从训练数据集中采样的每个问答对,策略模型按算法1生成条轨迹。对每条轨迹,提取最终提交的答案,并使用§ 3.3中介绍的GPT-4o评估器判断其正确性。第条轨迹的奖励定义如下:

接着,通过对组内奖励进行归一化,计算第条轨迹的优势函数:

强化学习的优化目标为:

KaTeX parse error: Expected '\right', got 'EOF' at end of input: …="" \right.="" =“” $$\left.=“” \left.=“” \operatorname{clip}\left(=“” \frac{\pi_\theta(\tau_{i,t}=“” \tau_{i,<t})}{\pi_\theta^{\text{old}}(\tau_{i,t}=“” \tau_{i,<t})},=“” -=“” \epsilon_{\text{low}},=“” +=“” \epsilon_{\text{high}}=“” \right)=“” \hat{a}_{i,t}=“” \right],=“” \quad=“” \text{s.t.=“” }=“” <=“” \sum_{i=“1}^G” r_i=“” g=“” \tag{3}=“”

公式说明:该公式是M3-Agent中控制模型(Control Model)的DAPO(Distributed Advantage Policy Optimization)强化学习优化目标函数,用于优化策略模型(基于Qwen3初始化),核心作用是通过强化学习提升智能体“多轮推理+记忆检索”的任务完成能力,关键符号含义与约束如下:

  1. ****:DAPO算法的优化目标,即最大化该目标以更新策略模型参数;
  2. ****:期望算子,基于训练数据集中的问答对和旧策略生成的轨迹计算期望;
  3. ****:第条推理轨迹(含智能体的检索动作、记忆信息、回答输出),为轨迹长度,为轨迹第步的输出;
  4. ****:指示函数,仅当是LLM生成的token时取1(训练时仅计算此类token的损失),否则取0;
  5. ****:新策略与旧策略的概率比值(用于策略更新的重要性采样);
  6. ****:第条轨迹第步的优势值(基于GPT-4o评估的回答正确性计算,公式2已定义);
  7. ****:裁剪函数,将策略比值约束在内(避免策略更新幅度过大,文档中,);
  8. ****:约束条件(原文选中内容中未完整显示,完整约束为“确保指示函数求和结果大于0,即存在LLM生成的token用于损失计算”)。

总结:M3-Agent框架设计

核心架构:双并行流程+长期记忆模块
  • 长期记忆模块:以“实体为中心的多模态图”存储,节点属性如下表:

    节点属性描述
    id节点唯一标识
    type模态类型(文本/图像/音频)
    content原始内容(如文本、base64图像)
    embedding内容的向量表示(用于相似度检索)
    weight置信度数值(解决冲突信息)
    extra_data元数据(如时间戳)
  • 双并行流程

  • 触发:接收外部指令(如问答任务)。

  • 执行:基于MLLM(策略模型πθ)进行多轮迭代推理(最多H=5轮),调用搜索工具(search_node:检索节点;search_clip:检索片段记忆)获取相关记忆,最终生成答案(算法1)。

  • 输入:实时视频流(视觉)+音频流(听觉)。

  • 处理:通过人脸识别(InsightFace)、说话人识别(ERes2NetV2)提取实体ID,生成两类记忆:

  • 存储:将记忆以文本节点形式存入图,实体ID间通过边关联(如<face_1>与<voice_2>绑定为同一人)。

  • 情景记忆:记录具体事件(如“<face_1>拿起咖啡说‘早上离不开它’”)。

  • 语义记忆:提炼通用知识(如“<face_1>早上偏好喝咖啡”“绿色垃圾桶用于回收”)。

  1. 记忆流程(Memorization)
  2. 控制流程(Control)
训练方案
  • 模型初始化
  • 记忆模型:基于Qwen2.5-Omni(开源多模态模型,支持视听输入),通过模仿学习(SFT)优化,训练数据为10,952个合成记忆样本(情景+语义记忆)。
  • 控制模型:基于Qwen3(开源LLM,强推理能力),通过强化学习(DAPO算法) 优化,奖励由GPT-4o评估答案正确性(正确得1,错误得0)。
  • 训练数据:500个长视频(26,943个30秒片段)+2,736个QA对,遵循M3-Bench-web标注标准。

3. M3-Bench基准构建

3.1 基准设计目标
  • 填补现有LVQA基准空白,评估智能体的长期记忆推理能力(如人类理解、常识提取、跨模态推理)。
3.2 两个子集细节
子集视频来源数量平均时长(秒)QA对数量核心特点
M3-Bench-robot机器人视角实拍(人类模拟机器人)1002039.912767个日常场景(客厅/厨房等),含预设脚本与真实交互
M3-Bench-webYouTube网络视频9201630.7321446类场景(纪录片/真人秀等),内容更丰富多样
3.3 问题类型与评估
  • 5类问题类型(示例见表1):多细节推理、多跳推理、跨模态推理、人类理解、常识提取。
  • 评估方式
  • 自动评估:用GPT-4o对比生成答案与参考答案,与人类标注一致性达96%。
  • 数据对比:与现有LVQA基准相比,M3-Bench首次覆盖“智能体存在”“跨模态QA”“人类理解QA”等维度(见表2)。

5 实验

5.1 基线模型

将M3-Agent与三类基线模型进行了性能对比:

5.1.1 苏格拉底模型(Socratic Models)

该基线采用苏格拉底模型框架[54],其核心逻辑是使用多模态模型对30秒的视频片段进行描述,并将这些描述作为长时记忆存储。在回答问题时,大语言模型(LLM)通过检索增强生成(RAG) [20]完成任务:首先调用search_clip函数检索与问题相关的记忆,再基于检索到的内容生成回答。

我们为记忆生成实现了闭源和开源两类多模态模型:

  • Gemini-1.5-Pro [41]:输入为完整的30秒视频片段。
  • GPT-4o [15]:由于该模型不支持音频处理,因此输入为以0.5帧/秒采样的视频帧和自动语音识别(ASR)转录文本。
  • Qwen2.5-Omni-7b [49]:先进的开源多模态模型,支持视觉和音频双输入,输入为完整视频。
  • Qwen2.5-VL-7b [1]:在视觉-语言任务中表现最优(SOTA)的开源视觉-语言模型,与GPT-4o类似,输入为以0.5帧/秒采样的视频帧和ASR转录文本。

对于所有上述变体,均使用GPT-4o作为实现RAG式问答的LLM,并通过大量提示工程(prompt engineering)优化每种设置的性能。所有提示模板详见附录H.2。

5.1.2 在线视频理解方法

我们进一步将本文方法与三种在线视频理解框架进行对比:MovieChat [40]、MA-LMM [12]和Flash-VStream [56]。除非另有说明,所有实验均采用这些方法的官方预训练权重和默认配置:

  • MovieChat [40]:采用滑动窗口提取帧级特征,并将其存储在混合内存中;LLM基于该内存完成问答任务。
  • MA-LMM [12]:以在线方式处理视频帧,流程包括特征提取(1帧/秒)、时序建模(输入100帧)和LLM解码。
  • Flash-VStream [56]:采用两阶段异步流水线:视频帧流压缩(1帧/秒)和基于压缩特征的LLM问答。
5.1.3 智能体方法

我们还将M3-Agent与通过提示闭源商业模型实现的智能体进行对比,具体包括以下两种基线:

  • Gemini-Agent:对Gemini-1.5-Pro进行提示,使其分别处理记忆访问和控制流程。在记忆访问阶段,向该模型输入完整视频(含音频)、人脸识别结果和说话人识别结果,生成情景记忆和语义记忆(记为memory-gemini-prompt);在控制阶段,该模型执行记忆检索并生成回答(记为control-gemini-prompt)。
  • Gemini-GPT4o-Hybrid:该设置中,记忆访问仍由memory-gemini-prompt处理,而记忆检索和回答生成则通过提示GPT-4o完成(记为control-gpt4o-prompt)。

相关提示模板详见附录H.3。

在实验中,M3-Agent及所有基于智能体的基线模型的最大执行轮次H均设为5。在search_clip函数的实现中,若存在相关片段,则返回前2个最相关的记忆片段(即k=2);若未找到相关片段,则返回空结果。

5.2 数据集与评估方式

我们在M3-Bench的两个子集(M3-Bench-robot和M3-Bench-web)上对M3-Agent及所有基线模型进行了评估。为验证本文方法的通用性,我们还按照官方评估协议[1],在长视频理解基准VideoMME-long [9]上对M3-Agent进行了测试。

5.3 主要实验结果

如表5所示,M3-Agent在M3-Bench-robot、M3-Bench-web和VideoMME-long三个基准上的性能均优于所有基线模型。具体而言:

  • 在M3-Bench-robot上,M3-Agent的准确率比性能最强的基线模型MA-LLM高出6.3%;
  • 在M3-Bench-web和VideoMME-long上,M3-Agent的准确率分别比性能最强的基线模型Gemini-GPT4o-Hybrid高出7.7%和5.3%。

表5 M3-Bench-robot、M3-Bench-web和VideoMME-long的实验结果。同时展示了所有方法在M3-Bench不同问题类型上的性能对比:多细节推理(MD)、多跳推理(MH)、跨模态推理(CM)、人类理解(HU)和通用知识提取(GK)。

方法M3-Bench-robotM3-Bench-webVideoMME-long
MDMHCMHUGK全部MDMHCMHUGK全部
苏格拉底模型
Qwen2.5-Omni-7b2.11.41.51.52.12.08.98.813.710.814.111.342.2
Qwen2.5-VL-7b2.93.83.64.63.43.411.910.513.414.020.914.946.9
Gemini-1.5-Pro6.57.58.09.77.68.018.017.923.823.128.723.238.0
GPT-4o9.39.08.410.27.38.521.321.930.927.139.628.738.8
在线视频理解方法
MovieChat13.39.812.215.77.011.212.26.612.517.411.112.619.4
MA-LMM25.623.422.739.114.424.426.810.522.439.315.824.37.2
Flash-VStream21.619.419.324.314.119.424.510.324.632.520.223.625.0
智能体方法
Gemini-Agent15.817.115.320.015.516.929.320.933.834.645.034.155.1
Gemini-GPT4o-Hybrid21.325.522.728.823.124.035.926.237.643.852.241.256.5
M3-Agent32.829.431.243.319.130.745.928.444.359.353.948.961.8

我们还进一步评估了M3-Agent在M3-Bench不同问题类型上相对于所有基线的性能表现。结果显示,M3-Agent在人类理解跨模态推理两类任务中表现尤为突出:

  • 在M3-Bench-robot上,相较于性能最佳的基线模型MA-LLM,M3-Agent在人类理解任务上的准确率提升了4.2%,在跨模态推理任务上提升了8.5%;
  • 在M3-Bench-web上,相较于性能最佳的基线模型Gemini-GPT4o-Hybrid,M3-Agent在人类理解任务上的准确率提升了15.5%,在跨模态推理任务上提升了6.7%。

这些结果表明,M3-Agent在维持人物标识一致性、深化人类理解以及有效融合多模态信息方面具备显著优势。

5.4 消融实验

5.4.1 记忆生成模型对性能的影响

为评估记忆生成模块对整体性能的影响,我们将控制模型固定为control-32b-rl,并对比了不同记忆生成方法的性能,结果如表6所示。

表6 不同记忆生成模型对最终性能的影响(控制模型固定为control-32b-rl)

记忆生成模型M3-Bench-robotM3-Bench-webVideoMME-long
memory-gemini-prompt28.746.352.7
memory-7b-prompt25.339.950.8
memory-7b-sft(M3-Agent)30.748.961.8
memory-7b-sft(移除等价关系)19.539.752.1
memory-7b-sft(移除语义记忆)13.629.748.7

实验结论如下:

  1. 若将M3-Agent的记忆生成模块替换为memory-gemini-prompt,模型在M3-Bench-robot、M3-Bench-web和VideoMME-long上的准确率分别下降2.0%、2.6%和9.1%,这表明memory-7b-sft生成的记忆质量优于memory-gemini-prompt;
  2. 若使用memory-7b-prompt(未经过模仿学习的记忆模型),模型在三个基准上的准确率分别下降5.4%、9.0%和11.0%,凸显了模仿学习在生成有效记忆中的重要性;
  3. 对记忆生成流程中的关键组件进行消融后,模型性能显著下降:移除“人物标识等价关系”(即不关联同一人物的脸和声音)或“语义记忆”,均会导致问答性能大幅降低,进一步验证了这些组件的必要性。

5.4.2 控制模型对性能的影响

为评估控制模块对整体性能的影响,我们将记忆生成模型固定为memory-7b-sft,并对比了不同控制模型的性能,结果如表7所示。

表7 不同控制模型对最终性能的影响(记忆生成模型固定为memory-7b-sft)

控制模型M3-Bench-robotM3-Bench-webVideoMME-long
control-32b-grpo30.047.758.7
control-8b-prompt16.435.745.3
control-8b-rl24.640.550.8
control-14b-prompt18.336.949.1
control-14b-rl28.246.956.0
control-32b-prompt20.740.952.5
control-32b-rl(M3-Agent)30.748.961.8
control-32b-prompt(移除跨轮指令)12.832.348.3
control-32b-rl(移除跨轮指令)20.243.155.9
control-32b-rl(移除推理模式)19.040.152.3

实验结论如下:

  1. 强化学习算法对比:在控制模型训练中,采用DAPO算法的control-32b-rl在所有测试集上的性能均优于采用GRPO算法的control-32b-grpo;
  2. 模型规模与RL训练的影响:DAPO训练带来的性能提升随模型规模增大而显著增加。具体而言,经过DAPO训练后,control-32b-rl相较于control-32b-prompt,在M3-Bench-robot、M3-Bench-web和VideoMME-long上的准确率分别提升10.0%、8.0%和9.3%;
  3. 关键设计的必要性:移除“跨轮指令”(即不传递每轮推理的上下文信息)或“推理模式”(即不进行多轮迭代推理),均会导致模型性能显著下降——移除跨轮指令后,三个基准的准确率分别下降10.5%、5.8%和5.9%;移除推理模式后,准确率分别下降11.7%、8.8%和9.5%。

5.5 案例研究

5.5.1 记忆生成案例

附录G的表15和表16展示了两个记忆生成案例,对比了memory-7b-sft(M3-Agent)与memory-gemini-prompt生成的情景记忆和语义记忆。结果显示,memory-7b-sft具备以下优势:

  1. 生成的情景记忆细节更丰富,包括更完整的场景描述、人物动作与表情,以及更准确的对话内容;
  2. 人物标识等价关系的识别能力更强,能够实现对人类身份的长期一致跟踪;
  3. 提取的语义记忆更全面,可主动生成关于人物属性和环境规则的知识。
5.5.2 控制流程案例

为详细展示控制流程,附录G的表17呈现了control-32b-rl的完整生成轨迹,输入问题为“Tomasz是一个想象力丰富的人,还是缺乏想象力的人?”。整个推理过程如下:

  1. 第一轮:智能体检索记忆以获取Tomasz的人物标识(character ID);
  2. 第二轮:确认Tomasz对应<character_4>后,直接查询“<character_4>在想象力方面的性格特征是什么?”;
  3. 第三轮:未检索到直接相关记忆,基于<character_4>的“公司CTO”身份进行推理,生成更具针对性的查询——“<character_4>有哪些创造性的解决问题的方法?”;
  4. 第四轮:检索到相关语义记忆——“<character_4>具有创新性和前瞻性,例如他热衷于将无人机技术扩展到个人飞行领域”,此时上下文已积累足够信息,最终生成回答。
5.5.3 M3-Bench中的高难度案例

各方法的准确率结果表明,M3-Bench(尤其是M3-Bench-robot)对现有模型构成了显著挑战。我们对M3-Agent在M3-Bench上的错误进行了详细分析,识别出两类具有代表性的高难度案例及对应的挑战,需在未来研究中进一步解决:

案例1:细粒度细节推理

此类问题要求智能体从观测中提取精确细节,例如“谁想吃火腿肠?”“Emma的帽子应挂在较高的衣帽架还是较矮的衣帽架上?”。挑战在于:若将所有细粒度细节均存储在记忆中,会导致“认知过载”,且实际操作中难以实现。未来需通过注意力机制实现“选择性记忆”——智能体可基于任务构建特定的世界知识,从而聚焦于相关细节、忽略无关信息,以提升任务性能。

案例2:空间推理

M3-Bench-robot中存在大量考验智能体空间认知能力的问题,例如理解空间布局、跟踪空间位置变化等,典型问题包括“机器人可在何处获取零食?”“Leo的水杯当前位于架子从上数第二层还是第三层?”。挑战在于:语言记忆对空间信息的存储效果远逊于视觉记忆。未来的长时记忆设计应融入更丰富的视觉内容(如场景快照),以更好地支持空间推理任务。

6. 结论与未来方向

  • 核心贡献
  1. 提出M3-Agent框架,实现多模态输入的长期记忆构建与推理。
  2. 构建M3-Bench基准,填补长期记忆推理评估空白。
  3. 验证RL训练与语义记忆对多模态智能体的关键作用。
  • 未来方向
  1. 增强语义记忆的注意力机制,实现选择性记忆。
  2. 优化视觉记忆存储(如加入快照),提升空间推理能力。

  1. 关键问题

问题1:M3-Agent的长期记忆与传统多模态模型的记忆机制相比,核心创新点是什么?

答案:M3-Agent的长期记忆机制有两大核心创新:

  1. 记忆类型与组织方式:区别于传统模型仅存储原始特征或单一描述,M3-Agent生成“情景记忆(具体事件)+语义记忆(通用知识)”双类型记忆,并以“实体为中心的多模态图”组织——同一实体的脸(face_id)、声音(voice_id)、属性(如偏好)通过边关联,确保长期一致性(如<face_1>与<voice_2>绑定为同一人,避免身份混淆)。
  2. 在线与增量处理:传统模型多处理有限长度的离线视频,而M3-Agent可实时、增量处理任意长度的视听流,模拟人类通过持续感知积累记忆的过程,无需重新处理历史数据,解决“无限信息处理”难题。

问题2:M3-Bench基准在设计上如何针对性评估多模态智能体的长期记忆推理能力?

答案:M3-Bench通过三方面设计实现针对性评估:

  1. 数据设计
  • 视频时长足够长(M3-Bench-robot平均2039.9秒、M3-Bench-web平均1630.7秒),需依赖长期记忆而非短期上下文;
  • 包含机器人视角视频(M3-Bench-robot),模拟智能体真实感知场景,评估其“从自身交互中积累记忆”的能力。
  1. 问题类型:设计5类需长期记忆推理的问题,均需跨片段或跨模态关联信息(如“多跳推理”需定位“丁茶店”后找后续奶茶店,“人类理解”需聚合Lucas多次烹饪行为推断技能),而非单一片段的浅层感知。
  2. 评估维度:相比现有LVQA基准(如EgoSchema、HourVideo),首次引入“人类理解QA”“常识提取QA”“跨模态QA”,直接评估智能体基于长期记忆的高阶认知能力(见表2,M3-Bench是唯一同时覆盖这三类QA的基准)。

问题3:实验中哪些关键组件对M3-Agent的性能提升贡献最大?请结合消融实验数据说明。

答案:实验表明语义记忆强化学习(RL)训练是贡献最大的关键组件:

  1. 语义记忆:移除语义记忆后,M3-Agent在三个基准上的准确率分别下降17.1%(M3-Bench-robot:30.7%→13.6%)、19.2%(M3-Bench-web:48.9%→29.7%)、13.1%(VideoMME-long:61.8%→48.7%),原因是语义记忆提供了实体属性、常识规则等“检索线索”,帮助智能体快速关联长期记忆(如“Alice偏好黑咖啡”的语义记忆可直接用于回答“Alice早上要什么饮品”)。
  2. RL训练:控制模型经DAPO算法(RL)优化后,相比未训练的prompt版本,准确率提升8.0%-10.0%(如M3-Bench-robot:20.7%→30.7%),因为RL使智能体具备“多轮迭代检索”能力,而非单一轮次的检索增强生成(RAG),能更精准定位长期记忆中的关键信息(如案例中通过多轮检索确认Tomasz的创新特质)。
    QA”“跨模态QA”,直接评估智能体基于长期记忆的高阶认知能力(见表2,M3-Bench是唯一同时覆盖这三类QA的基准)。

问题3:实验中哪些关键组件对M3-Agent的性能提升贡献最大?请结合消融实验数据说明。

答案:实验表明语义记忆强化学习(RL)训练是贡献最大的关键组件:

  1. 语义记忆:移除语义记忆后,M3-Agent在三个基准上的准确率分别下降17.1%(M3-Bench-robot:30.7%→13.6%)、19.2%(M3-Bench-web:48.9%→29.7%)、13.1%(VideoMME-long:61.8%→48.7%),原因是语义记忆提供了实体属性、常识规则等“检索线索”,帮助智能体快速关联长期记忆(如“Alice偏好黑咖啡”的语义记忆可直接用于回答“Alice早上要什么饮品”)。
  2. RL训练:控制模型经DAPO算法(RL)优化后,相比未训练的prompt版本,准确率提升8.0%-10.0%(如M3-Bench-robot:20.7%→30.7%),因为RL使智能体具备“多轮迭代检索”能力,而非单一轮次的检索增强生成(RAG),能更精准定位长期记忆中的关键信息(如案例中通过多轮检索确认Tomasz的创新特质)。
    此外,跨轮指令也很重要,移除后准确率下降5.8%-10.5%,说明多轮推理中的指令连贯性对记忆检索效率至关重要。

如何学习大模型 AI ?

我国在AI大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年,人才缺口已超百万,凸显培养不足。随着Al技术飞速发展,预计到2025年,这一缺口将急剧扩大至400万,严重制约我国Al产业的创新步伐。加强人才培养,优化教育体系,国际合作并进,是破解困局、推动AI发展的关键。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

2025最新大模型学习路线

明确的学习路线至关重要。它能指引新人起点、规划学习顺序、明确核心知识点。大模型领域涉及的知识点非常广泛,没有明确的学习路线可能会导致新人感到迷茫,不知道应该专注于哪些内容。

对于从来没有接触过AI大模型的同学,我帮大家准备了从零基础到精通学习成长路线图以及学习规划。可以说是最科学最系统的学习路线。

在这里插入图片描述

针对以上大模型的学习路线我们也整理了对应的学习视频教程,和配套的学习资料。

大模型经典PDF书籍

新手必备的大模型学习PDF书单来了!全是硬核知识,帮你少走弯路!

在这里插入图片描述

配套大模型项目实战

所有视频教程所涉及的实战项目和项目源码等
在这里插入图片描述

博主介绍+AI项目案例集锦

MoPaaS专注于Al技术能力建设与应用场景开发,与智学优课联合孵化,培养适合未来发展需求的技术性人才和应用型领袖。

在这里插入图片描述

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费

在这里插入图片描述

为什么要学习大模型?

2025人工智能大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 , 大模型作为其中的重要组成部分 , 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力, 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 ,为各行各业带来了革命性的改变和机遇 。

在这里插入图片描述

适合人群

  • 在校学生:包括专科、本科、硕士和博士研究生。学生应具备扎实的编程基础和一定的数学基础,有志于深入AGI大模型行业,希望开展相关的研究和开发工作。
  • IT行业从业人员:包括在职或失业者,涵盖开发、测试、运维、产品经理等职务。拥有一定的IT从业经验,至少1年以上的编程工作经验,对大模型技术感兴趣或有业务需求,希望通过课程提升自身在IT领域的竞争力。
  • IT管理及技术研究领域人员:包括技术经理、技术负责人、CTO、架构师、研究员等角色。这些人员需要跟随技术发展趋势,主导技术创新,推动大模型技术在企业业务中的应用与改造。
  • 传统AI从业人员:包括算法工程师、机器视觉工程师、深度学习工程师等。这些AI技术人才原先从事机器视觉、自然语言处理、推荐系统等领域工作,现需要快速补充大模型技术能力,获得大模型训练微调的实操技能,以适应新的技术发展趋势。
    在这里插入图片描述

课程精彩瞬间

大模型核心原理与Prompt:掌握大语言模型的核心知识,了解行业应用与趋势;熟练Python编程,提升提示工程技能,为Al应用开发打下坚实基础。

在这里插入图片描述

RAG应用开发工程:掌握RAG应用开发全流程,理解前沿技术,提升商业化分析与优化能力,通过实战项目加深理解与应用。 在这里插入图片描述

Agent应用架构进阶实践:掌握大模型Agent技术的核心原理与实践应用,能够独立完成Agent系统的设计与开发,提升多智能体协同与复杂任务处理的能力,为AI产品的创新与优化提供有力支持。
在这里插入图片描述

模型微调与私有化大模型:掌握大模型微调与私有化部署技能,提升模型优化与部署能力,为大模型项目落地打下坚实基础。 在这里插入图片描述

顶尖师资,深耕AI大模型前沿技术

实战专家亲授,让你少走弯路
在这里插入图片描述

一对一学习规划,职业生涯指导

  • 真实商业项目实训
  • 大厂绿色直通车

人才库优秀学员参与真实商业项目实训

以商业交付标准作为学习标准,具备真实大模型项目实践操作经验可写入简历,支持项目背调

在这里插入图片描述
大厂绿色直通车,冲击行业高薪岗位
在这里插入图片描述

文中涉及到的完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值