企业AI应用的核心痛点
在大语言模型技术加速渗透千行百业的今天,如何让AI 在企业级场景中实现精准高效的知识服务,成为行业落地的核心挑战。检索增强生成(RAG)技术作为解决大模型在 toB 场景泛化能力不足的主流方案,正被越来越多企业纳入技术选型清单。而在 RAG 的技术链条中,Retrieval 阶段的 Embedding 模型性能,直接决定了知识检索的准确性与全面性,成为影响最终服务效果的关键环节。
在整个RAG流程中,Embedding模型处于核心地位,负责将内容编码为向量表示,从而实现高效、相关的信息检索。遗憾的是,传统的Embedding模型几乎只关注文本输入,默认企业知识主要以文字形式存在。但这一假设只是技术发展初期对现实世界的不合理的简化。
沉默的大多数:企业文档中的多模态内容
当前主流的Embedding 模型大多聚焦于纯文本信息的处理,在面对企业文档中普遍存在的多模态内容时往往力不从心。这些被忽视的多模态元素包括产品说明书中的示意图、财务报表里的数据表格、工程图纸中的技术图例、科研报告中的实验图表等。根据MMDocIR 发布的《多模态长文档检索基准报告》显示,在典型的办公文档中,多模态内容的占比区间高达 20% 至 70%,不同行业文档的多模态密度呈现显著差异 —— 制造业技术手册的图文混排率超过 65%,金融分析报告的数据表格占比达 30%,医疗病例中的影像与文字结合更是常态。这种对多模态内容的天然 “盲区”,让传统 Embedding 模型在企业级知识检索中频频 “失准”,严重制约了 RAG 技术的落地价值。

Dong, Kuicai, Yujing Chang, Xin Deik Goh, Dexun Li, Ruiming Tang, and Yong Liu. "Mmdocir: Benchmarking multi-modal retrieval for long documents." arXiv preprint arXiv:2501.08828 (2025).
RzenEmbed: 面向多模态RAG的Embedding模型,专为企业文档智能设计
正是洞察到这一技术痛点,360人工智能研究院的多模态理解团队,基于前期在跨模态理解与多模态大模型领域的长期积累,倾力推出RzenEmbed 多模态 Embedding 模型,旨在为下一代RAG系统提供更精准、更全面的语义检索能力。该模型深度融合了团队在图文多模态检索、多模态文档理解、以及通用视觉语言建模等方向的技术沉淀,设计核心是打破文本、图像等不同模态的数据壁垒—— 通过构建统一的语义嵌入空间,实现跨模态与混合模态的精准语义对齐,支持用户以 “单一模态”(如文本描述、单张图像)或 “模态组合”(如 “指令+文本+图像”)为检索条件,高效匹配其他模态的相关内容,解决传统检索中 “模态割裂”“上下文丢失” 等痛点。RzenEmbed 实现了文字、图片、图表等多元信息的深度语义融合,让机器真正 “看懂” 企业文档中的每一处细节。
技术实力的强弱,最终需要权威榜单的检验。在国际知名的多模态Embedding 评测基准 MMEB(Multi-Modal Embedding Benchmark)中,RzenEmbed 凭借卓越的综合性能脱颖而出,斩获总排名第一+ 单项第一的双料冠军。在最能体现企业级应用价值的VisDoc(多模态文档检索)专项测试中,RzenEmbed 以明显优势位居单项第一,充分证明了其在处理复杂办公文档场景时的核心竞争力。该成绩已同步更新至MMEB 官方排行榜(https://huggingface.co/spaces/TIGER-Lab/MMEB-Leaderboard),接受全球研究者的共同见证和检验。

RzenEmbed-v2-7B在MMEB榜单上获得总排名+单项双Top1的佳绩
访问获取
RzenEmbed模型将通过SaaS和权重开源的方式对外提供访问获取,相关工作正在紧锣密鼓地进行中,相关进展我们将在研究院官网:https://research.360.cn 及时更新同步,欢迎关注。
从技术突破到产业落地,RzenEmbed为我们提供了重新定义企业级知识检索的新方法和新思路。无论是制造业的技术文档管理、金融业的研报智能分析,还是医疗行业的病例知识挖掘,这款融合了前沿多模态技术的 Embedding 模型,都将为企业打造更精准、更全面、更智能的知识服务体系提供核心动力,让 AI 真正成为赋能业务增长的 “超级大脑”。
RzenEmbed:企业多模态文档智能新突破

1408

被折叠的 条评论
为什么被折叠?



