自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Jina AI 的博客

从 0 到 1,用 Jina 搭建一个神经搜索系统

  • 博客(241)
  • 收藏
  • 关注

原创 公告:Elastic (NYSE: ESTC) 完成对Jina AI的收购

在 Jina AI,我们专注于构建搜索基础模型,希望帮助世界解锁多模态 AI 的巨大潜力,并革新我们解读与互动信息的方式。我们非常期待将 Jina AI 的模型与 Elastic 庞大的平台和生态系统结合,共同帮助开发者打造更快、更精准的 AI 体验。Jina AI 将继续秉持开源精神,专注于高质量的搜索模型。10 月中旬和 11 月初肖涵博士计划在北京、上海、深圳开展三场线下交流活动,回顾 Jina AI 的发展、未来,并分享他在创业近六年来的一些反思以及收购案背后的故事,也会回答社区关心的问题。

2025-10-10 12:26:16 405

原创 Jina Reranker v3: 全新“列式”重排器,0.6B参数刷新文档检索SOTA

因为模型采用的是因果自注意力机制,对于序列中不同位置的文档,其编码会受到前面文档的影响,从而捕捉到不同的上下文信息。具体来说,是先从 <|doc_emb|> 和 <|query_emb|> 位置提取出 1024 维的隐藏状态,投射到 256 维的专用于排序的向量空间,然后再计算查询与各文档向量间的余弦相似度,得出最终的相关性分数并完成排序。整个过程依赖于共享的因果自注意力机制,它确保了最终生成的向量,既能忠实地反映每个文档自身的局部语义,又能充分体现文档间相互对比、关联后产生的全局上下文信息。

2025-10-09 16:06:52 335

原创 Jina官方MCP三板斧:搜、读、筛

MCP 的开放性允许我们串联多个独立的 MCP 服务器,构建更强大的工作流。在这个示例中,我们组合了 Jina MCP 服务器和一个 PDF 阅读器的 MCP:https://github.com/sylphxltd/pdf-reader-mcp,目标是生成一份关于欧美 AI 法律合规的研究报告。根据我们的实践,当前 Agent 的能力瓶颈主要在于 LLM 本身,实际应用中还是需要通过精巧的提示工程 (prompt engineering) 和反复的人工调试来校准其行为。

2025-09-30 16:18:26 1121

原创 让 llama.cpp 支持多模态向量模型

为此,我们专门 fork 了 llama.cpp,改造了它的向量处理器,设计了一套分阶段的处理流程,让它能够直接接收 Base64 编码的图像。中补全这一能力,同时,我们也会将其性能(包括两个量化版本)与 PyTorch 版的 jina-embeddings-v4,也就是我们后文将反复提及的参考模型,进行全面的性能对比。为了进一步深挖两者之间可能存在的细微差异,我们还选取了来自不同领域、不同分辨率的图像,将两者输出的图像块向量(在池化与归一化之前)进行逐一对比,并将其间的余弦距离绘制成了热力图。

2025-09-12 10:21:29 638 4

原创 回归C++: 在GGUF上构建高效的向量模型

但 v4 是一个因果模型,迟分不再是双向的:前面的文本块向量,将无法包含后续文本块的上下文信息。因此,“迟分”技术在 v4 模型中的实际效果,仍需我们进一步研究和验证。虽然 GCP 也能提供 A100/H100,但我们CEO的思维很直接:如果一个 3B 参数的模型就动辄喊着用 A100/H100 来部署,那不是炫,是我们还得练(skill issue)。llama.cpp 中现有的向量功能实现,大多是围绕着旧式的 BERT/RoBERTa 的纯编码器 encoder-only 架构开发的,尚未适配现代。

2025-08-14 09:04:19 991

原创 JinaVDR: 一个图文混排文档搜索任务的基准集

我们收集了大量布局复杂的真实文档,它们来自多种语言,很多内部混合了图表、表格、文字和图像,文件类型也覆盖了从数字化的网页、屏幕截图、PDF 再到物理的扫描件。后续的 ViDoRe v2 虽然做了一些改进,支持了更长、可跨文档的查询和无明确上下文的“盲”查询,也将语言扩展到了法语、德语和西班牙语。MTEB 是社区公认的评测基准框架。这样,大家就可以用熟悉的脚本和工具,在我们的基准上快速测试自己的模型。真实世界的数据是杂乱的,比如扫描文档的图像质量差,这虽然能反映真实场景,却也给控制合成数据的质量带来了麻烦。

2025-08-07 12:47:00 907

原创 用子模优化做文本选择、段落重排和上下文工程

这种模式的根本缺陷在于:它孤立地计算每一个 (查询,段落) 对的相关性,在计算某个段落时,完全不考虑其他段落的内容。它们协同工作,确保 LLM 能在一个合理的 Token 预算内,接收到最大化提纯的、最不冗余的核心信息,从而避免信息过载,提升输出质量。子模优化算法在很大程度上参考了原始的相关性分数,但更重要的是,它执行了重排。的文章发表后,我们收到了来自圈内很多积极的反馈,希望我们能多聊聊子模性(submodularity)和子模优化,尤其是在信息检索和 Agentic Search 场景下的更多应用。

2025-07-15 08:54:34 928

原创 Jina Embeddings v4 的量化感知训练

蒸馏是一种以大带小的策略,通过用一个强大的大模型(教师模型)生成大量训练数据,来训练一个专为量化设计、结构更小的新模型(学生模型)。更重要的是,量化作为一种通用的数值优化手段,它不挑数据、不看场景、不依赖特定领域知识,适用于各类模型和应用场景。简单总结一下:四种方法都能实现向量压缩,但除了压缩向量外,还想同时获得更小、更快的模型,则需选择全量化感知训练(Full QAT) 或蒸馏,并承担更高的训练成本。虽然模型参数会有所调整,但模型权重的精度保持不变,因此模型整体的体积不会缩小,变化的只是输出向量的尺寸。

2025-07-09 13:35:21 585

原创 用子模优化法为DeepResearch生成多样性查询

这意味着,我们不仅能从懒贪心算法起步,还可以借力于学术界更前沿的成果,例如加速贪心、局部搜索等更高级的算法,借鉴关于不同模型适用场景的扎实理论,甚至还能将框架扩展,从容应对预算限制、公平性约束等更复杂的现实需求。针对下面这个旨在寻找最优子集的问题,贪心算法不仅速度飞快,更能提供一个坚实的理论保证:它找到的解,其质量至少能达到最优解的。如果没有一个成体系的框架,我们很容易陷入“手搓”式的开发模式,依赖各种临时的启发式规则,例如“确保查询间的余弦相似度低于 0.7”,或是“强制平衡不同类别的关键词”。

2025-07-07 11:41:52 732

原创 Jina Embeddings V4: 为搜索而生,多模态多语言向量模型

其中,其多向量版本不仅在专业的视觉文档基准上取得了最高分(ViDoRe 90.2 分,Jina-VDR 80.2 分),同时在通用的多模态检索任务(CLIP 84.1 分)上也保持了强大的竞争力。我们没有采用高成本的长序列训练,而是通过“短训长用”(train short, deploy long)的巧思,借助 ALiBi 算法,让一个仅在 512 词元上训练的模型,推理时能无缝处理 8192 词元的超长序列,用更少的计算撬动了更强的能力。到 v4 的升级,标志着模型从纯文本向量向多模态向量的范式转换。

2025-06-26 10:10:23 1309

原创 Correlations:氛围测试你的向量模型

在我们的应用场景中,就是在相关性矩阵里,找到一个 k 行 k 列的子矩阵,使其内部所有相似度值的总和达到最大。这样做的好处是能给你一个大概的印象,但它也有个绕不开的局限性,那就是可能会把向量之间两两对应的关键关系信息给弄丢了。这样一来,我们就能直观地分析文本与图像间的相关性模式,也为多模态应用提供了一种实用的可视化分析途径。Correlations 能直观地展示出不同策略下相似性模式的变化,帮助评估和选择更合适的内容块边界,也让优化分块这件事更有依据,能省去不少反复调试分块策略的功夫。

2025-05-29 11:25:26 658

原创 这样更公平:用jina-reranker-m0为多模态文档打分重排

由于我们有两种模态,对于任何给定的查询,我们实际上会面临两个潜在的语义鸿沟:查询与文本之间的鸿沟,以及查询与图像之间的鸿沟。更进一步,如果我们想合并“Query-to-text”和“Query-to-image”两种检索方式的候选结果,在分数根本不具备可比性的情况下,我们又该如何有意义地选出最佳匹配呢?简单比较或组合这些分数,很难得到一个合理的结果。简单来说,“模态鸿沟”指的是不同模态(比如图像和文本)的向量在共享的向量空间中彼此分离的现象,不同模态产生的相似度分数可能处于不同的“尺度”或“分布范围”。

2025-05-27 08:18:21 659 1

原创 喝下这一碗模型汤,掌握向量模型的训练秘方

SWA 的研究表明,在许多常见情况下,简单粗暴地对模型的权重进行平均,就能提升模型的泛化性能,也就是模型在未见过的新数据上的表现能力。从这里的结果来看,虽然把专门为问答任务和检索任务训练的模型融合起来,确实能让它们在这两个任务上的综合表现都有所提升,但是,一旦把那个为语义相似度(STS)训练的模型也加进来,反而会在所有任务类别上都把特定任务的性能给拉低了。因此,如果要合并的所有模型,它们的权重都处在同一个“损失盆地”内,那么它们的权重值本身就会相当接近,此时对它们进行平均,成功的可能性就比较大。

2025-05-09 18:31:49 428

原创 文本向量的长度偏差及其在搜索中的影响

最后,认识到模型的局限性,是一种务实的态度,这对于构建可靠、高效的系统至关重要。这样一来,我们可能就想设一个阈值,比如 0.459(平均值 + 1 倍标准差),或者干脆四舍五入到 0.5,然后规定:任何相似度低于这个值的文档对,内容就基本不相关。在基于向量的搜索里,虽然总能找到一个“最佳匹配”的结果,但长度偏差的存在,导致我们无法单凭相似度分数,就判断这个“最佳匹配”或者其他得分较低的结果,内容是否真的相关。在下面的直方图(图 6)中,红色代表句子的长度分布,蓝色代表完整文档的长度分布,方便大家比较。

2025-04-17 09:02:42 1072

原创 Jina AI 携搜索小模型亮相 ICLR 2025 新加坡

在这个高度垂直的任务上,ReaderLM-V2 的表现甚至超越了像 GPT-4o 这样的业界领先大模型,同时效果提升显著。除了技术的交流,我们也非常乐意介绍 Jina AI 的工作与实习机会,并为您准备了精美的纪念品。CLIP 模型在图文理解任务上表现亮眼,但其内部存在一个常被忽视的“模态鸿沟”:图像和文本的向量各自占据不同的领地。如果您也将参加 ICLR 2025,欢迎在会场找到我们的团队成员,与我们一起深入探讨对 AI 搜索的研究洞见。我们发现,简单的向量平移并不能解决问题,反而会破坏向量空间的结构。

2025-04-11 16:23:38 1163

原创 jina-reranker-m0 全新多模态多语言重排器

在 ViDoRe(视觉文档检索,NDCG@5 达 91.02)和 M-BEIR(跨模态检索,比如文搜图、图搜文)这些基准上,m0 表现非常扎实,能够有效理解并排序包含丰富视觉信息的文档,效果明显好过纯文本模型,也优于我们测的一些同类多模态竞品(如基于 Qwen2-VL 的 MonoQwen2-VL-v0.1)。对于其他的输入组合(如图像到图像、图像到多模态文档、文本到多模态文档),模型也具备零样本(zero-shot)处理能力,底层架构兼容这些模态组合的输入,只是训练阶段没有针对这些模态组合进行优化设计。

2025-04-09 12:01:20 1402

原创 Jina AI x Google Cloud: DeepSearch技术沙龙·深圳站报名开启!

Deep(Re)Search 并非简单的 RAG,而是基于“搜索、阅读、推理”循环,利用长上下文模型的能力,以解决复杂查询,并提供高质量拿走即用的搜索结果。如果你关心如何将 DeepSearch 理念落地,想了解实际开发中的具体问题和解决方案,欢迎加入我们,共同探讨和交流。欢迎在报名时注明你当前在相关领域遇到的技术挑战,或希望在沙龙中深入探讨的问题,我们将尽力在活动中进行交流。关于长上下文 LLM、推理模型、Embeddings 在实际应用中的性能表现与局限性的真实洞察。

2025-04-07 17:01:39 536

原创 在DeepSearch中用DeepSeek-R1来做动作决策会更好么?

我们基于 R1 做的这些尝试,正好为我们后续的探索打了个样:怎么才能更好地把各种工具跟侧重推理的 LLM 结合起来,去完成那些复杂的搜索任务。但后来我们发现,抓取下来的网页里,相关的好酒店不止 5 家。在第 n 次迭代中,模型输出了工具调用指令后,系统会执行这些工具调用,并将返回的结果嵌入到提示词的 Tool Results 部分,供模型在第 n+1 次迭代中进行推理。推理模型在训练时所侧重的能力(数理逻辑),和我们试图让它应用的全新领域(需要大量信息检索和验证的任务)之间,还存在着一道不小的鸿沟。

2025-04-02 10:05:27 996

原创 DeepSearch/DeepResearch中最优文本段选择和URL重排

如果你已经读过我们上一篇经典长文《DeepSearch/DeepResearch 的设计与实现》,那么不妨再深挖一些能大幅提升回答质量的细节。这次,我们将重点关注两个细节:从长网页提取最优文本段:如何利用迟分(late-chunking)算法,从长网页内容中选取最相关的信息小片段。对收集到的URL进行重排:如何利用重排器(Reranker) 让 LLM Agent 在几百个URL中聪明地选择爬取哪...

2025-03-13 15:39:53 1075

原创 【报名开启】Jina AI & Google Cloud 深度搜索技术沙龙!

2025-03-11 14:18:00 557 1

原创 长文本向量模型在4K Tokens 之外形同盲区?

2025 年 2 月发布的 NoLiMA 是一种大语言模型(LLM)长文本理解能力评估方法。不同于传统“大海捞针”(Needle-in-a-Haystack, NIAH)测试依赖关键词匹配的做法,它最大的特点是通过精心设计问题和关键信息,迫使模型进行深层语义理解和推理,才能从长文本中找到答案。NoLiMa: https://arxiv.org/abs/2502.05167NoLiMA 的研究结果...

2025-03-11 14:18:00 1077

原创 直接拿大模型当搜索页(SERP)会怎样?

在 Deep(Re)Search 和那些依赖外部搜索 RAG 系统中,一个头疼的事是:如何判断当前的问题能否该由 LLM 直接作答,还是必须搜索外部信息才能解决?常见的实现都是通过提示词进行路由。而这篇文章给出了一个奇妙的方法——把大模型直接当做 SERP(Search Engine Results Page,搜索引擎结果页)——或超级靠谱或离了大谱。但看到最后,你可能会有所悟。反其道而行 模型即...

2025-02-28 16:32:00 1061

原创 DeepSearch 与 DeepResearch 的设计和实现

这才 2 月份,深度搜索(Deep Search)就已经隐隐成为 2025 年的新搜索标准了。像谷歌和 OpenAI 这样的巨头,纷纷亮出自己的“Deep Research”产品,努力抢占这波技术浪潮的先机。(我们也很自豪,在同一天也发布了开源的node-deepresearch)。Perplexity 紧随其后,也推出了他们的 Deep Research。而马斯克的 X AI 则更进一步,直接把...

2025-02-26 16:41:41 2051

原创 基于 LLM 的查询扩展:信息更全,搜索更准

查询扩展 (Query Expansion) ,这股风潮又刮回来了!作为曾经搜索的标配,后来一度沉寂,在今天推理式搜索 (Agentic Search) 的浪潮下,查询扩展又重新回到了聚光灯下。做过 Agentic Search (比如 DeepSearch/DeepResearch) 的朋友肯定深有体会,用户直接输入的查询词,要么太笼统,不够聚焦;要不就太细碎,不够全面。这让那些依赖关键词匹配或...

2025-02-20 15:47:56 1697

原创 生产环境部署 Jina AI 搜索底座模型的实战指南

想要打造更好的搜索体验?选择合适的部署方案是关键。Jina AI 针对不同业务场景,提供了多种模型接入方式。本文将详细介绍各种部署方案,分析它们的优缺点,并结合实际业务场景,给出更实用的最佳实践建议,帮你快速找到最合适的方案。Jina 搜索底座模型概览我们的搜索底座模型(Jina AI Search Foundation Models)包括:Embedding 模型:通过向量空间映射,将数字对象转...

2025-02-11 12:43:44 3113

原创 ModernBERT 为我们带来了哪些启示?

当谷歌在 2018 年推出 BERT 模型时,恐怕没有料到这个 3.4 亿参数的模型会成为自然语言处理领域的奠基之作。六年后的今天,面对动辄千亿参数的大语言模型浪潮,Answer.AI、LightOn与 HuggingFace 联手打造的 ModernBERT 却选择了一条返璞归真的道路:通过架构创新,将大语言模型的先进经验移植到小型模型中,让 4 亿参数的小模型迸发出超越预期的性能。为了深入了解...

2025-01-27 15:33:15 972

原创 如果伟大可以被计划

2025 年将是 AI 迅猛发展的关键一年。中美之间的竞争日益激烈,Deepseek-R1 一鸣惊人,大模型正向 Test-Time Compute 方向演进,垂直领域的智能体(Agent)也逐步落地。在这样充满机遇与挑战的一年,作为 AI 从业者或初创公司,我们应该如何把握机会,走向成功?之前读到一本书《为什么伟大不能被计划》,由 OpenAI 的两位前研究员撰写。我还没有完全读完,但无论是我个...

2025-01-23 13:25:41 1030

原创 ReaderLM v2:HTML 转 Markdown 和 JSON 的前沿小型语言模型

2024 年 4 月,我们发布了 Jina Reader(https://jina.ai/reader),这是一个非常实用的 API,用户只需在 URL 前添加 r.jina.ai 前缀,就能将任何网页转换为大模型友好的 Markdown。紧接着,在同年 9 月,我们又发布了两款专门用于将原始 HTML 转换为干净 Markdown 的小型语言模型: reader-lm-0.5b 和 reader...

2025-01-16 12:01:09 1845

原创 文本-图像全局对比对齐与 Token-Patch 级别的局部对齐

最近,我们团队的一位工程师在研究类 ColPali 模型时,受到启发,用新近发布的 jina-clip-v2 模型做了个颇具洞察力的可视化实验。实验的核心思路是,对给定的图像-文本对,计算文本里每个词的向量(token embeddings)和图像里每个图像块的向量(patch embeddings),计算它们之间的相似度。然后,把这些相似度数值映射为热力图,叠加在图像之上,就能直观地看到文本 t...

2025-01-08 18:32:36 737

原创 向量模型的词序感知缺陷与优化策略

最近,LAION AI 的创始人 Christoph Schuhmann 分享了一个有趣的发现,他指出,文本向量模型似乎存在一个问题:即使句子词序被打乱,模型输出的向量与原句仍然高度相似。例如,“柏林是德国的首都” 和 “德国柏林是首都的”这两句话,后者虽然读都读不顺,但模型却分不出来。使用 jina-embeddings-v3 计算,它们的余弦相似度竟高达 0.973。这不是个例。改变词序虽然会...

2024-12-27 12:18:20 762

原创 Scaling Test-Time Compute:向量模型上的思维链

自从 OpenAI 发布了 o1 模型后,Scaling Test-Time Compute(扩展推理时计算)就成了 AI 圈子里最火爆的话题之一。简单来说,与其在预训练或后训练阶段疯狂堆算力,不如在推理阶段(也就是大语言模型生成输出的时候)多花点计算资源。o1 模型将一个大问题拆分为一系列小问题(即思维链,Chain-of-Thought),让模型像人一样一步步思考,评估不同的可能性、做更细致的...

2024-12-17 19:15:54 1351

原创 卷起来了!长文本向量模型分块策略大比拼

长文本向量模型能够将十页长的文本编码为单个向量,听起来很强大,但真的实用吗?很多人觉得... 未必。直接用行不行?该不该分块?怎么分才最高效?本文将带你深入探讨长文本向量模型的不同分块策略,分析利弊,帮你避坑。长文本向量化的问题首先,让我们看看将整篇文章压缩成单一向量会存在哪些问题。以构建文档搜索系统为例,单篇文章可能包含多个主题。 比如这篇关于 ICML 2024 参会报告的博客,就包含会议介绍...

2024-12-13 09:00:21 1506

原创 基于向量模型的文本水印技术

在 EMNLP 2024 上,我们看到了向量模型的各种创新用法,其中最出人意料的莫过于:文本水印。试想一下,你挑灯夜战,终于给那篇倾注了一整个周末心血的文章,点击了发布键,成就感满满,虽然点赞不多,但这是属于你的作品。结果没几天,你却发现自己的文章被洗稿了!熟悉的配方,陌生的味道,更可气的是,“李鬼”的传播度还远超“李逵”。这哪还有创意经济的公平可言?最直观的办法当然是署名,但说实话,署名也最容易...

2024-11-27 19:16:02 1033

原创 Jina CLIP v2:多语言多模态的文本图像向量模型

多模态向量通过统一的数据表示,实现了不同模态数据的搜索和理解,是神经检索和多模态生成式 AI 应用的基石。今天,我们推出了全新的通用多语言多模态向量模型 —— jina-clip-v2。该模型基于 jina-clip-v1 和 jina-embeddings-3构建,并实现了多项关键改进:性能提升:v2 在文本-图像和文本-文本检索任务中,性能较 v1 提升了 3%。此外,与 v1 类似,v2 ...

2024-11-22 12:47:31 1663

原创 EMNLP 2024 BoF 活动报名:用 Embeddings、Reranker、小型语言模型打造更优搜索!

在 2023 年 EMNLP 大会上,Jina AI 举办了 一场关于向量技术前沿探索的 Bird of a Feather (BoF) 会议,超过 80 位参会者,包括 DeepMind、Meta 等机构的顶尖研究员以及行业专家们,一起讨论向量前沿技术的最新进展。<<< 闪电分享、圆桌讨论和午餐会>>>今年的 EMNLP 2024 在迈阿密举行,我们将延续在...

2024-11-07 20:58:57 1059

原创 RAG 系统的分块难题:小型语言模型如何找到最佳断点?

之前我们聊过 RAG 里文档分块 (Chunking) 的挑战,也介绍了迟分 (Late Chunking) 的概念,它可以在向量化的时候减少上下文信息的丢失。今天,我们来聊聊另一个难题:如何找到最佳的分块断点。虽然迟分对边界位置不敏感,但也不代表我们可以随便乱切,毕竟可读性对人和大模型都很重要。所以我们现在的思路是:既然用了迟分,就不用太担心语义或上下文丢失的问题。边界好坏,迟分都能处理,因此...

2024-11-05 09:00:49 1477

原创 还在用 CLIP?Jina-CLIP 告诉你多模态搜索的正确打开方式

近年来,多模态搜索,或者说把文本和图像融合进统一的搜索体验,在 OpenAI 的 CLIP 等模型的带动下发展得如火如荼。这些模型有效地弥合了视觉数据和文本数据之间的语义鸿沟,可以把图像和相关的文本对应起来。然而,很多做实际应用的开发者很快会发现,CLIP 及其同类模型虽然在图文匹配上表现很出色,但在长文本理解和复杂语义关系处理上就力不从心了。所以我们推出了 jina-clip-v1,目标就是构建...

2024-10-31 17:38:19 2416 1

原创 Jina Classifier API:高性能的零样本和小样本分类器

分类是向量模型的常见下游应用。文本向量模型可以用来识别垃圾邮件或进行情感分析。对于多模态向量模型,比如 jina-clip-v1,可以被用于基于内容的筛选和标签标注等任务。最近,向量模型还充当了大模型路由器(LLM router)的角色,根据任务的复杂性和成本选择合适的模型:将简单的算术问题分配给小模型,将复杂的推理任务交由更强大的大模型。今天,我们 Jina AI 搜索底座推出了一款高性能分类器...

2024-10-23 16:54:07 1274 1

原创 Jina Embeddings v2 到 v3 的迁移指南

Jina Embeddings v3 我们最新推出的 5.7 亿参数的顶级文本向量模型,在多语言和长文本检索任务上达到当前最佳水平 SOTA。v3 不仅拥有更强大的性能,还有很多惊喜新功能。如果您仍在使用 2023 年 10 月发布的 Jina Embeddings v2,我们强烈建议您尽快迁移至 v3。先简单说下 Jina Embeddings v3 的亮点:支持 89 种语言: 突破 v2 只...

2024-10-22 08:00:43 1816

原创 多语言向量模型的语言鸿沟(Language Gap),对比学习能否带来突破?

多语言向量模型训练时,有一个棘手问题 -- 语言鸿沟(Language Gap)。简单来说,就是不同语言中表达相同含义的短语,它们的向量却可能相距甚远,无法有效对齐。理想情况下,一段文本及其不同语言的翻译版本,应该具有高度近似的向量表示。这样,我们才能像处理单语言文本一样,无缝地进行跨语言分析和应用。然而现实情况确是,模型在训练过程中容易关注原文的表层语言特征,形成一种“语义鸿沟”,导致跨语言任务...

2024-10-15 18:05:51 1577

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除