Jina AI发布38亿参数多模态向量模型v4,革新跨模态检索技术

Jina AI发布38亿参数多模态向量模型v4,革新跨模态检索技术

【免费下载链接】jina-embeddings-v4 【免费下载链接】jina-embeddings-v4 项目地址: https://ai.gitcode.com/hf_mirrors/jinaai/jina-embeddings-v4

今日,Jina AI正式推出jina-embeddings-v4多模态向量模型,该模型以38亿参数规模实现文本与图像的统一处理,标志着通用向量模型进入跨模态融合新纪元。通过内置三套任务专用LoRA适配器,模型在查询-文档检索、语义匹配及代码搜索等核心场景实现性能突破,在MTEB、MMTEB、CoIR等七大权威基准测试中均刷新多模态检索榜单。尤其在处理表格、图表等富视觉内容时,模型能精准提取深层语义,同时支持单向量/多向量双输出模式,满足不同检索架构需求。

深绿色网格背景上以点阵形式呈现“Embeddings-v4”文字,“v4”部分带有色彩渐变效果,突出jina-embeddings-v4的视觉标识。 该图片以科技感设计直观呈现了jina-embeddings-v4的品牌标识,深绿色网格背景象征模型的技术深度与稳定性,渐变处理的"v4"字样则凸显此次版本升级的突破性意义,帮助读者快速建立对新产品的视觉认知。

突破性架构设计

jina-embeddings-v4基于Qwen2.5-VL-3B-Instruct多模态基座构建,创新采用"单路径联合编码"架构:视觉编码器将图像转化为token序列后,与文本输入共同进入语言模型解码器,通过上下文注意力机制实现跨模态深度融合。模型集成三个6000万参数的LoRA适配器,在不改变骨干网络权重的前提下,分别优化检索、文本匹配和代码任务性能。输出系统提供双模式选择:单向量模式通过平均池化生成2048维向量(可压缩至128维),适用于高效相似性搜索;多向量模式为每个token生成128维向量,支持先进的"迟交互"检索策略。

基座模型的战略升级

此次架构革新的核心在于将基座模型从XLM-RoBERTa全面升级为Qwen2.5-VL-3B-Instruct,这一决策源于打造"真正多模态向量模型"的战略目标。新基座通过直接将图像转为token序列,从根本上消除了传统双编码器架构的模态鸿沟,带来三项关键突破:其一,强化的文档理解能力使模型能精准解析表格、图表等复杂视觉内容;其二,动态分辨率技术支持处理高达2000万像素的图像输入;其三,先进位置编码技术将跨模态对齐分数提升至0.71,远超OpenAI CLIP的0.15基准。

任务适配器的效能优化

基于v3版本的实践反馈,研发团队将原有五个适配器精简为三大核心模块:非对称检索适配器(整合原查询/段落适配器)、对称相似度适配器(专注语义文本匹配任务)、代码检索适配器(恢复v2版本的代码处理能力)。通过移除分类与分离适配器,模型资源得以集中投向检索与语义匹配这两大核心应用场景,在保持6000万参数规模的同时,实现任务性能的精准优化。

双向量输出系统

区别于v3的单一输出模式,v4创新设计双向量生成系统:单向量模式通过平均池化生成固定维度向量,确保高效的相似性计算;多向量模式为每个输入token生成独立向量,支持细粒度的"迟交互"检索。实测显示,在视觉内容检索任务中,多向量模式比单向量模式性能提升7-10%,验证了该设计对复杂内容语义捕捉的有效性。

参数规模与性能平衡

尽管38亿参数较v3版本(5.7亿)增长6.7倍,但模型在纯文本任务上仅实现适度提升(MMTEB得分+14%,MTEB-EN得分+3%),参数增量主要投向多模态能力建设。这种战略性投入带来显著回报:代码检索性能提升30%,长文档处理能力增强21%,更重要的是获得了v3不具备的视觉理解能力——在视觉文档检索(Jina-VDR)和ViDoRe基准测试中分别取得84.11 nDCG@5和90.17的优异成绩。统一架构不仅消除了对独立文本/视觉模型的依赖,更将跨模态对齐质量提升近5倍,印证了多模态战略的前瞻性。

快速体验指南

用户可通过在线演示平台直观体验模型能力(https://jina.ai/api-dashboard/m0-image-rerank),系统预置多种文档图像样本,支持用户输入自定义图像URL。该演示具备多语言查询能力,可实现类似OCR与内容检索的复合功能。需注意:演示会消耗Jina API Key的Token余额,且因实时图像下载无缓存机制,可能存在响应延迟。

便捷的API接入方式

开发者可通过API轻松调用模型处理文本、Base64图像或图像URL,新用户注册即可获得含1000万免费Token的API Key(官网:https://jina.ai/embeddings/)。当前API服务支持8K Token上下文长度(受GPU资源限制),满足多数应用场景需求。对于32K Token超长文档处理,官方推荐两种部署方案:通过AWS、Azure、GCP等云市场订阅(即将上线),或使用Hugging Face开源版本本地部署。项目提供Google Colab示例 notebook(https://colab.research.google.com/drive/1fb8jGCDPf-MXUnyXt-DNoe8_hmBDpDrl#scrollTo=M54aS0TvApyi)加速上手,模型遵循CC-BY-NC-4.0许可协议,商业用途需联系sales@jina.ai获取授权。

技术演进与未来展望

jina-embeddings-v4代表着Jina AI在向量模型领域的重大突破,这款38亿参数的多模态模型通过统一架构实现文本与图像的深度融合,在富视觉文档检索领域已超越谷歌、OpenAI等厂商的闭源方案。回顾四代产品演进,团队始终坚持技术创新:v1版本证明精选3.85亿高质量样本(源自15亿数据对)的效能远超简单堆砌数据;v2通过"短训长用"策略突破512 Token限制,实现8192 Token长文本处理;v3首创多LoRA适配器架构,以极小开销实现多任务适配;v4则通过LLM基座转型,彻底解决模态鸿沟问题。

这一系列突破背后是研发理念的根本转变:从坚守纯编码器架构转向采用大语言模型作为基座。这一转变揭示关键洞见——表达与生成能力同根同源,擅长内容生成的大模型天然具备构建精准向量的潜力。基于此,Jina AI正全力推进"统一搜索架构"愿景,目标是让向量模型与重排器共享通用基座,使大语言模型的每一次技术进步都能直接赋能检索系统。随着jina-embeddings-v4的发布,这一愿景正逐步变为现实,为下一代智能检索系统奠定坚实基础。

【免费下载链接】jina-embeddings-v4 【免费下载链接】jina-embeddings-v4 项目地址: https://ai.gitcode.com/hf_mirrors/jinaai/jina-embeddings-v4

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值