Jina Embeddings V4:38亿参数多模态向量模型革新跨模态检索技术

Jina Embeddings V4:38亿参数多模态向量模型革新跨模态检索技术

【免费下载链接】jina-embeddings-v4 【免费下载链接】jina-embeddings-v4 项目地址: https://ai.gitcode.com/hf_mirrors/jinaai/jina-embeddings-v4

Jina Embeddings V4作为一款具备38亿参数的多模态向量模型,实现了文本与图像表示能力的深度统一。该模型以Qwen2.5-VL-3B-Instruct为主干网络,创新性地支持后期交互风格的单向量与多向量输出模式,成功打破了传统CLIP式双编码器模型在模态融合上的固有局限。其架构亮点在于集成了三个专用LoRA适配器(每个适配器含60M参数),能够在不改动主干网络冻结权重的前提下,针对非对称查询文档检索、语义文本相似度计算及代码搜索等不同检索场景实现性能优化。通过构建统一的处理路径,该模型在表格、图表、示意图、截图及混合媒体格式等视觉密集型内容的处理上表现卓越,有效弥合了传统架构中存在的模态鸿沟。此外,Jina Embeddings V4还具备强大的多语言支持能力,可处理长达32,768个标记的文本输入,并能将图像分辨率调整至20兆像素,为跨语言、跨领域的文档检索与跨模态搜索应用提供了强有力的技术支撑。

图片展示了jina-embeddings-v4的学术论文摘要页面,介绍了该38亿参数多模态向量模型的架构、多语言能力及检索性能,并提及Jina-VDR基准测试。 这张学术论文摘要页面直观呈现了Jina Embeddings V4的核心技术特性,包括其架构创新、多语言支持及在关键基准测试中的表现。通过论文摘要的形式,为技术研究者和开发者提供了快速了解模型核心价值的权威渠道,凸显了该模型在学术与工业界的双重影响力。

在技术架构上,Jina Embeddings V4采用了与CLIP风格双编码器截然不同的统一多模态语言模型架构。该模型通过共享路径处理各类输入:首先将图像经视觉编码器转换为token序列,随后借助带上下文注意层的语言模型解码器对文本与图像模态进行联合处理。这种设计支持两种输出模式以适应多样化应用需求:单向量模式通过Matryoshka表征学习生成2048维向量(可截断至128维),并经均值池化实现高效相似性搜索;多向量模式则通过投影层输出每个token的128维向量,适用于后期交互风格的检索任务。三个特定任务LoRA适配器的功能定位各有侧重:检索适配器采用基于前缀的非对称编码与硬负样本训练策略,专门优化查询文档场景;文本匹配适配器运用CoSENT损失函数,专注提升语义相似性任务性能;代码适配器则针对自然语言到代码的检索场景深度优化。模型训练分为两个关键阶段:初始阶段利用300多个来源的文本-文本及文本-图像对,通过对比InfoNCE损失进行配对训练;后续阶段则采用基于三元组的方法,并结合各领域定制化损失函数,对三个LoRA适配器开展特定任务微调。

Jina Embeddings V4在多项权威基准测试中展现出极具竞争力的性能表现。在视觉文档检索领域,该模型在JinaVDR基准测试中获得72.19的平均得分,显著超越ColPali-v1.2的64.50;在ViDoRe基准测试中以84.11的平均分略高于ColPali的83.90,而多向量模式在ViDoRe上的得分更达到90.17的优异成绩。跨模态检索方面,其在CLIP基准测试中取得84.11分,超越jina-clip-v2(81.12)和nllb-clip-large-siglip(83.19)。文本检索任务中,该模型在MTEB-en与MMTEB基准测试中分别获得55.97和66.49的成绩,尤其在长文档处理上表现突出,在LongEmbed基准测试中以67.11分大幅领先前代产品的55.66分。语义文本相似度方面,模型在英语STS任务中得分为85.89,多语言STS基准测试中得72.70分。代码检索能力在CoIR基准测试中达到71.59分,虽略低于voyage-code-3(77.33)等专用模型,但综合性能仍处于行业前列。值得注意的是,该模型的跨模态对齐性能得分为0.71,远超OpenAI CLIP的0.15,有效解决了多模态模型中的模态错位问题。实际应用中,多向量模式在视觉密集型任务上的表现持续优于单向量模式,而单向量模式则在标准检索场景下提供更高的效率。

为充分发挥Jina Embeddings V4的技术优势,用户需根据具体应用场景选择合适的LoRA适配器与输出模式。针对查询与文档结构差异较大的非对称检索场景,建议选用“检索”适配器,并通过适当前缀明确区分查询与段落内容;“文本匹配”适配器适用于语义相似性任务与对称检索场景,特别适合文档聚类、重复检测及内容推荐系统等需查找相似内容的应用;“代码”适配器则针对编程相关场景深度优化,可高效支持自然语言到代码检索、代码相似性搜索及技术问答等任务。输出模式的选择需权衡性能与效率需求:单向量模式提供高效的相似性搜索能力,适用于存储资源受限的环境,其可截断维度特性允许在质量可接受的前提下将向量维度从2048降至128-512;多向量模式则为复杂检索任务提供更高精度,尤其在处理视觉丰富文档时,后期交互评分机制能够捕捉更细致的内容关联。

该模型的统一架构支持直接处理混合文本图像输入,无需额外编码器或对视觉文档进行OCR预处理,大幅简化了系统部署流程。其强大的跨模态对齐功能与多语言支持能力,使其成为国际业务应用的理想选择。在生产部署环节,需注意每个LoRA适配器60M参数的内存开销,但三个适配器同时加载时额外内存占用不足2%,可实现推理过程中的任务灵活切换。开发者可通过克隆仓库获取模型资源,仓库地址为https://gitcode.com/hf_mirrors/jinaai/jina-embeddings-v4。未来,随着多模态检索需求的不断深化,Jina Embeddings V4有望在智能文档管理、跨语言内容推荐、多模态搜索引擎等领域发挥关键作用,推动人机交互方式的进一步革新。

【免费下载链接】jina-embeddings-v4 【免费下载链接】jina-embeddings-v4 项目地址: https://ai.gitcode.com/hf_mirrors/jinaai/jina-embeddings-v4

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值