【AI新突破】多模态Embedding模型RzenEmbed开源,程序员必学!告别单一文本检索,拥抱多模态未来!

在大语言模型技术加速渗透各行各业的今天,如何让 AI 在企业级场景中实现精准高效的知识服务,成为行业落地的核心挑战。

检索增强生成(RAG)技术作为解决大模型在 toB 场景泛化能力不足的主流方案,正被越来越多企业纳入技术选型清单。而在 RAG 的技术链条中,Retrieval 阶段的 Embedding 模型性能,直接决定了知识检索的准确性与全面性,成为影响最终服务效果的关键环节。

遗憾的是,当前的 Embedding 模型长期局限于纯文本处理,默认行业知识主要以文字形式存在,而现实中,企业文档中充满了示意图、数据表格、技术图例、实验图表等多模态内容——制造业技术手册图文混排率超 60%,金融分析报告数据表格占比达 30%,医疗病例更是普遍存在影像与文字结合的情况。

以下为 MMDocIR 发布的《多模态长文档检索基准报告》中,不同领域企业文档的多模态内容占比分布:

▲ 不同领域企业文档多模态内容占比图

这些占比高达 30%~70% 的多模态信息,长期被选择性“忽视”,导致知识检索在关键处“失准”。

针对这一行业痛点,360 AI 研究院开源发布了多模态 Embedding 模型 RzenEmbed,该模型在国际权威基准测试 MMEB(Multi-Modal Embedding Benchmark)中斩获 “总排名第一 + VisDoc 专项第一” 的双料冠军,并于近期发布了完整的技术报告。

一、技术核心:构建统一的跨模态语义空间和检索能力

RzenEmbed 从设计之初,其目标就是着眼于 RAG 应用的“下一步”,解决传统 Embedding 模型的单模态局限问题。

覆盖从文本、图像、视频、多模态文档等多方面实际落地场景,构建统一的多模态语义空间,以统一的 embedding 嵌入,实现文→文、文→图/视频、图/视频→文、图/视频→图/视频 甚至 文+图/视频→文+图/视频的复杂检索。

  1. 两阶段训练:兼顾通用能力与企业场景适配

RzenEmbed 采用 “基础预训练 + 精细微调” 的两阶段训练模式,通过高质量的训练数据,在通用能力与企业特定场景(如文档检索、视频分析等)适配之间取得了卓越的平衡。

第一阶段:多模态持续预训练,筑牢基础能力。此阶段聚焦构建文本、图像、视频的基础语义对齐能力,不引入指令微调,专注让不同模态在统一空间中 “同频共振”。

训练数据涵盖三大类型:

一是文本 - 文本(T→T)数据,采用 MSMARCO、NQ 等经典数据集共 30 万条,强化文本理解能力;

二是跨模态数据,包括 LAION 数据集的 200 万条文本 - 图像(T→I)对、ShareGPT4V 的 25 万条文本 - 视频描述(T→VD)对,建立跨模态关联;

三是融合模态数据,采用 Megapairs 数据集的 250 万条图像 - 文本到图像(IT→I)对,提升复杂场景理解。

特别值得一提的是,团队进行了大量的数据生成和数据清洗工作,比如通过 CogVLM-19B 大模型对 LAION 图像进行重新 captioning(描述生成),既减少了网页爬取数据的噪声,又让模型捕捉到更细微的语义差异,为企业文档中的图表、示意图理解打下基础。

第二阶段:指令微调,精准适配企业场景。进入微调阶段,模型开始针对企业高频场景优化,核心是构建 “任务类型 + 输入模态 + 任务场景” 三维度的高质量数据集。

除了 MMEB-v2 训练集,还补充了大量公开多模态检索与问答数据,覆盖图像分类、视觉文档检索、视频检索、视频问答等多元任务 —— 比如针对企业文档场景,重点强化 Visual Document(VisDoc)的检索能力;针对视频分析需求,增加长视频片段检索、关键帧定位等任务。

为避免模型过拟合,每个数据集样本量控制在 10 万条以内;同时,每个训练批次仅从单一数据集采样,让难负样本更集中,提升对比学习的有效性。

  1. 改进型 InfoNCE 损失:解决检索 “老大难”,精准度大幅提升

传统对比学习中的 InfoNCE 损失,长期受两大问题困扰:一是如何“过滤假阴样本”(语义与正样本相似却被误判为负样本),二是如何“增加相似样本辨别能力”(模型在训练时随机采样,容易忽略难区分样本)。

RzenEmbed 通过以下创新改进,让检索精准度显著提升。

假阴性缓解机制:智能筛选,避免学习偏差。团队设计了基于相似度阈值的过滤策略:对于每个查询 - 正样本对(q, k⁺),计算负样本 k⁻ 与正样本 k⁺ 的相似度。

若超过预设阈值 δ(实验中设为 0.95),则判定该负样本为 “假阴性”,将其从损失计算的分母中剔除。让模型专注于学习真正的“相关”与“不相关”,而不会让“半相关”的样本产生误导。

硬度加权策略:聚焦难例,提升区分能力。针对 “难样本” 学习不足的问题,RzenEmbed 引入指数加权机制,对与查询 q 相似度更高的负样本(即更难区分的样本)分配更高权重。具体权重为 wᵢ = exp (α・sim (q, k⁻ᵢ)),其中 α 设为 9,确保难样本的损失贡献被放大。

比如在金融研报检索中,模型会更关注 “2023 年 Q3 营收分析” 与 “2023 年 Q4 营收预测” 这类相似文本的区分,或是 “2022 年利润表” 与 “2023 年利润表” 这类相似表格的差异,完美匹配企业场景中精细检索的需求。

此外,团队还创新引入 “任务特异性可学习温度参数”。不同的检索数据,信息密度有所差异(比如文档数据信息密度更大,而一般视频信息密度较低)。

RzenEmbed 为图像分类、文档检索、视频问答等 7 类任务,分别设计独立的可学习温度参数 τₜ,通过 τₜ = exp (θₜ) 的参数化方式确保其为正值,让模型为不同任务 “量身定制” 优化目标,进一步提升企业多场景适配能力。

  1. 模型融合:解决多任务训练中的竞争难题

为了实现文→文、文→图/视频、图/视频→文、图/视频→图/视频 甚至 文+图/视频→文+图/视频的复杂检索,RzenEmbed 需要同时覆盖以上各种组合的训练任务。

语言模型训练的多任务竞争一直是 LLM 训练中的难题,这一难点在多模态训练上,因为不同任务间数据模态差异明显,就变得格外显著。

为了解决这一难题,团队采用了 “模型融合(Model Souping)” 技术:通过不同训练数据和方法训练出的多个专家 LoRA 适配器,再通过加权聚合融合为一个通用适配器,最后与基础预训练模型合并。这一融合过程捕捉了各专家的互补知识,只需单次推理即可生成更具区分度的检索向量。

二、性能对比,多模态文档场景性能突出

RzenEmbed 在国际 MMEB 基准评测中,7B 版本斩获总排名第一 + 单项第一的双料冠军,在最能体现企业级应用价值的 VisDoc(多模态文档检索)专项测试中,RzenEmbed 以明显优势位居单项第一,证明了其在处理复杂办公文档场景时的核心竞争力。

下表给出了 MMEB 评测的全部细节,可以看到,在多模态文档检索单项上,2B 版本的 RzenEmbed 已经可以力压参数更大且闭源的 seed-1.6-embedding 模型了。

  • 综合能力第一:在涵盖文本、图像、视频、视觉文档的 78 个任务中,2.21B(20 亿参数)版本总分 67.2,8.29B(80 亿参数)版本总分 71.6,均超越所有同规模模型,甚至超过闭源的 Seed-1.6-embedding;
  • 企业场景专项第一:在最能体现企业价值的 VisDoc(视觉文档)检索任务中,RzenEmbed 表现尤为突出,无论是文档分类、表格检索还是图表理解,都以明显优势位居第一,完美匹配企业文档处理需求;
  • 视频检索领先:在视频片段检索、视频问答检索等任务中,模型也超越了 VLM2Vec-V2、UniME-V2 等同类方案,为企业视频培训材料、会议录像检索提供了强大支持。

三、产业落地:多行业赋能,不仅仅是技术进步的“下一步”

RzenEmbed 的推出,不仅仅是技术突破意义上的“下一步”,更是 AI 在企业场景落地的 “更进一步”。

在 RzenEmbed 的加持下,多模态 RAG 技术可以有效识别并召回以往被视为难题的复杂表格、流程图等“非结构化”内容:

Q:when GLM-10B can be accessed?

A:

Q:get the info. about human evaluation’s math score of GPT-4 vs. Qwen-14B-Chat

A:

目前,RzenEmbed 通过权重开源和 SaaS 服务(360AI 研究院官网 https://research.360.cn)两种方式对外开放,未来将在多行业释放价值:

  • 制造业:助力技术手册管理,工程师通过一张零件示意图,即可快速检索到对应的安装说明、维修流程,大幅提升工作效率;
  • 金融业:实现研报智能分析,分析师输入 “2024 年新能源行业利润率”,模型可精准定位相关数据表格、趋势图表,减少信息筛选时间;
  • 医疗行业:辅助病例知识挖掘,医生上传一张影像图,即可检索到相似病例的诊断报告、治疗方案,为临床决策提供参考。

从技术突破到产业落地,RzenEmbed 正以多模态能力为核心,推动企业级知识检索升级到“全维度” 智能融合的“下一步”。未来,360AI 研究院还将持续优化模型,让多模态技术推动 AI 在办公场景的深度落地。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套 AI 大模型突围资料包

  • ✅ 从零到一的 AI 学习路径图
  • ✅ 大模型调优实战手册(附医疗/金融等大厂真实案例)
  • ✅ 百度/阿里专家闭门录播课
  • ✅ 大模型当下最新行业报告
  • ✅ 真实大厂面试真题
  • ✅ 2025 最新岗位需求图谱

所有资料 ⚡️ ,朋友们如果有需要 《AI大模型入门+进阶学习资源包》下方扫码获取~
在这里插入图片描述

① 全套AI大模型应用开发视频教程

(包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点)
在这里插入图片描述

② 大模型系统化学习路线

作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!
在这里插入图片描述

③ 大模型学习书籍&文档

学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。
在这里插入图片描述

④ AI大模型最新行业报告

2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
在这里插入图片描述

⑤ 大模型项目实战&配套源码

学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。
在这里插入图片描述

⑥ 大模型大厂面试真题

面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余

图片

以上资料如何领取?

在这里插入图片描述

为什么大家都在学大模型?

最近科技巨头英特尔宣布裁员2万人,传统岗位不断缩减,但AI相关技术岗疯狂扩招,有3-5年经验,大厂薪资就能给到50K*20薪!

图片

不出1年,“有AI项目经验”将成为投递简历的门槛。

风口之下,与其像“温水煮青蛙”一样坐等被行业淘汰,不如先人一步,掌握AI大模型原理+应用技术+项目实操经验,“顺风”翻盘!
在这里插入图片描述
在这里插入图片描述

这些资料真的有用吗?

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
在这里插入图片描述
在这里插入图片描述

以上全套大模型资料如何领取?

在这里插入图片描述

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值