M3-Agent的亮点在于,它不仅能够处理实时的视觉和听觉输入,以构建和更新其长期记忆,还发展了语义记忆,能够随着时间的推移积累知识。
字节Seed发布全新多模态智能体框架——M3-Agent。
像人类一样能听会看、具备长期记忆,并且免费开源!?

M3-Agent的亮点在于,它不仅能够处理实时的视觉和听觉输入,以构建和更新其长期记忆,还发展了语义记忆,能够随着时间的推移积累知识。
此外,为了评估多模态智能体中的记忆有效性和基于记忆的推理,来自字节Seed、浙江大学和上海交通大学的研究团队还开发了一个新的长视频问答基准:M3-Bench,同样开源。

实验表明,通过强化学习训练的M3-Agent在多个基准测试中表现均显著优于基线模型(包括基于商业模型如Gemini-1.5-Pro和GPT-4o的智能体)。

一位热心网友总结了这篇论文的两个核心洞察:
以实体为中心的多模态记忆至关重要。M3-Agent研究表明

最低0.47元/天 解锁文章
743

被折叠的 条评论
为什么被折叠?



