自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Jina AI 的博客

从 0 到 1,用 Jina 搭建一个神经搜索系统

  • 博客(225)
  • 收藏
  • 关注

原创 Jina AI x Google Cloud: DeepSearch技术沙龙·深圳站报名开启!

Deep(Re)Search 并非简单的 RAG,而是基于“搜索、阅读、推理”循环,利用长上下文模型的能力,以解决复杂查询,并提供高质量拿走即用的搜索结果。如果你关心如何将 DeepSearch 理念落地,想了解实际开发中的具体问题和解决方案,欢迎加入我们,共同探讨和交流。欢迎在报名时注明你当前在相关领域遇到的技术挑战,或希望在沙龙中深入探讨的问题,我们将尽力在活动中进行交流。关于长上下文 LLM、推理模型、Embeddings 在实际应用中的性能表现与局限性的真实洞察。

2025-04-07 17:01:39 183

原创 在DeepSearch中用DeepSeek-R1来做动作决策会更好么?

我们基于 R1 做的这些尝试,正好为我们后续的探索打了个样:怎么才能更好地把各种工具跟侧重推理的 LLM 结合起来,去完成那些复杂的搜索任务。但后来我们发现,抓取下来的网页里,相关的好酒店不止 5 家。在第 n 次迭代中,模型输出了工具调用指令后,系统会执行这些工具调用,并将返回的结果嵌入到提示词的 Tool Results 部分,供模型在第 n+1 次迭代中进行推理。推理模型在训练时所侧重的能力(数理逻辑),和我们试图让它应用的全新领域(需要大量信息检索和验证的任务)之间,还存在着一道不小的鸿沟。

2025-04-02 10:05:27 684

原创 DeepSearch/DeepResearch中最优文本段选择和URL重排

如果你已经读过我们上一篇经典长文《DeepSearch/DeepResearch 的设计与实现》,那么不妨再深挖一些能大幅提升回答质量的细节。这次,我们将重点关注两个细节:从长网页提取最优文本段:如何利用迟分(late-chunking)算法,从长网页内容中选取最相关的信息小片段。对收集到的URL进行重排:如何利用重排器(Reranker) 让 LLM Agent 在几百个URL中聪明地选择爬取哪...

2025-03-13 15:39:53 673

原创 【报名开启】Jina AI & Google Cloud 深度搜索技术沙龙!

2025-03-11 14:18:00 435 1

原创 长文本向量模型在4K Tokens 之外形同盲区?

2025 年 2 月发布的 NoLiMA 是一种大语言模型(LLM)长文本理解能力评估方法。不同于传统“大海捞针”(Needle-in-a-Haystack, NIAH)测试依赖关键词匹配的做法,它最大的特点是通过精心设计问题和关键信息,迫使模型进行深层语义理解和推理,才能从长文本中找到答案。NoLiMa: https://arxiv.org/abs/2502.05167NoLiMA 的研究结果...

2025-03-11 14:18:00 885

原创 直接拿大模型当搜索页(SERP)会怎样?

在 Deep(Re)Search 和那些依赖外部搜索 RAG 系统中,一个头疼的事是:如何判断当前的问题能否该由 LLM 直接作答,还是必须搜索外部信息才能解决?常见的实现都是通过提示词进行路由。而这篇文章给出了一个奇妙的方法——把大模型直接当做 SERP(Search Engine Results Page,搜索引擎结果页)——或超级靠谱或离了大谱。但看到最后,你可能会有所悟。反其道而行 模型即...

2025-02-28 16:32:00 951

原创 DeepSearch 与 DeepResearch 的设计和实现

这才 2 月份,深度搜索(Deep Search)就已经隐隐成为 2025 年的新搜索标准了。像谷歌和 OpenAI 这样的巨头,纷纷亮出自己的“Deep Research”产品,努力抢占这波技术浪潮的先机。(我们也很自豪,在同一天也发布了开源的node-deepresearch)。Perplexity 紧随其后,也推出了他们的 Deep Research。而马斯克的 X AI 则更进一步,直接把...

2025-02-26 16:41:41 1426

原创 基于 LLM 的查询扩展:信息更全,搜索更准

查询扩展 (Query Expansion) ,这股风潮又刮回来了!作为曾经搜索的标配,后来一度沉寂,在今天推理式搜索 (Agentic Search) 的浪潮下,查询扩展又重新回到了聚光灯下。做过 Agentic Search (比如 DeepSearch/DeepResearch) 的朋友肯定深有体会,用户直接输入的查询词,要么太笼统,不够聚焦;要不就太细碎,不够全面。这让那些依赖关键词匹配或...

2025-02-20 15:47:56 1052

原创 生产环境部署 Jina AI 搜索底座模型的实战指南

想要打造更好的搜索体验?选择合适的部署方案是关键。Jina AI 针对不同业务场景,提供了多种模型接入方式。本文将详细介绍各种部署方案,分析它们的优缺点,并结合实际业务场景,给出更实用的最佳实践建议,帮你快速找到最合适的方案。Jina 搜索底座模型概览我们的搜索底座模型(Jina AI Search Foundation Models)包括:Embedding 模型:通过向量空间映射,将数字对象转...

2025-02-11 12:43:44 1762

原创 ModernBERT 为我们带来了哪些启示?

当谷歌在 2018 年推出 BERT 模型时,恐怕没有料到这个 3.4 亿参数的模型会成为自然语言处理领域的奠基之作。六年后的今天,面对动辄千亿参数的大语言模型浪潮,Answer.AI、LightOn与 HuggingFace 联手打造的 ModernBERT 却选择了一条返璞归真的道路:通过架构创新,将大语言模型的先进经验移植到小型模型中,让 4 亿参数的小模型迸发出超越预期的性能。为了深入了解...

2025-01-27 15:33:15 716

原创 如果伟大可以被计划

2025 年将是 AI 迅猛发展的关键一年。中美之间的竞争日益激烈,Deepseek-R1 一鸣惊人,大模型正向 Test-Time Compute 方向演进,垂直领域的智能体(Agent)也逐步落地。在这样充满机遇与挑战的一年,作为 AI 从业者或初创公司,我们应该如何把握机会,走向成功?之前读到一本书《为什么伟大不能被计划》,由 OpenAI 的两位前研究员撰写。我还没有完全读完,但无论是我个...

2025-01-23 13:25:41 885

原创 ReaderLM v2:HTML 转 Markdown 和 JSON 的前沿小型语言模型

2024 年 4 月,我们发布了 Jina Reader(https://jina.ai/reader),这是一个非常实用的 API,用户只需在 URL 前添加 r.jina.ai 前缀,就能将任何网页转换为大模型友好的 Markdown。紧接着,在同年 9 月,我们又发布了两款专门用于将原始 HTML 转换为干净 Markdown 的小型语言模型: reader-lm-0.5b 和 reader...

2025-01-16 12:01:09 1377

原创 文本-图像全局对比对齐与 Token-Patch 级别的局部对齐

最近,我们团队的一位工程师在研究类 ColPali 模型时,受到启发,用新近发布的 jina-clip-v2 模型做了个颇具洞察力的可视化实验。实验的核心思路是,对给定的图像-文本对,计算文本里每个词的向量(token embeddings)和图像里每个图像块的向量(patch embeddings),计算它们之间的相似度。然后,把这些相似度数值映射为热力图,叠加在图像之上,就能直观地看到文本 t...

2025-01-08 18:32:36 514

原创 向量模型的词序感知缺陷与优化策略

最近,LAION AI 的创始人 Christoph Schuhmann 分享了一个有趣的发现,他指出,文本向量模型似乎存在一个问题:即使句子词序被打乱,模型输出的向量与原句仍然高度相似。例如,“柏林是德国的首都” 和 “德国柏林是首都的”这两句话,后者虽然读都读不顺,但模型却分不出来。使用 jina-embeddings-v3 计算,它们的余弦相似度竟高达 0.973。这不是个例。改变词序虽然会...

2024-12-27 12:18:20 489

原创 Scaling Test-Time Compute:向量模型上的思维链

自从 OpenAI 发布了 o1 模型后,Scaling Test-Time Compute(扩展推理时计算)就成了 AI 圈子里最火爆的话题之一。简单来说,与其在预训练或后训练阶段疯狂堆算力,不如在推理阶段(也就是大语言模型生成输出的时候)多花点计算资源。o1 模型将一个大问题拆分为一系列小问题(即思维链,Chain-of-Thought),让模型像人一样一步步思考,评估不同的可能性、做更细致的...

2024-12-17 19:15:54 1058

原创 卷起来了!长文本向量模型分块策略大比拼

长文本向量模型能够将十页长的文本编码为单个向量,听起来很强大,但真的实用吗?很多人觉得... 未必。直接用行不行?该不该分块?怎么分才最高效?本文将带你深入探讨长文本向量模型的不同分块策略,分析利弊,帮你避坑。长文本向量化的问题首先,让我们看看将整篇文章压缩成单一向量会存在哪些问题。以构建文档搜索系统为例,单篇文章可能包含多个主题。 比如这篇关于 ICML 2024 参会报告的博客,就包含会议介绍...

2024-12-13 09:00:21 1138

原创 基于向量模型的文本水印技术

在 EMNLP 2024 上,我们看到了向量模型的各种创新用法,其中最出人意料的莫过于:文本水印。试想一下,你挑灯夜战,终于给那篇倾注了一整个周末心血的文章,点击了发布键,成就感满满,虽然点赞不多,但这是属于你的作品。结果没几天,你却发现自己的文章被洗稿了!熟悉的配方,陌生的味道,更可气的是,“李鬼”的传播度还远超“李逵”。这哪还有创意经济的公平可言?最直观的办法当然是署名,但说实话,署名也最容易...

2024-11-27 19:16:02 829

原创 Jina CLIP v2:多语言多模态的文本图像向量模型

多模态向量通过统一的数据表示,实现了不同模态数据的搜索和理解,是神经检索和多模态生成式 AI 应用的基石。今天,我们推出了全新的通用多语言多模态向量模型 —— jina-clip-v2。该模型基于 jina-clip-v1 和 jina-embeddings-3构建,并实现了多项关键改进:性能提升:v2 在文本-图像和文本-文本检索任务中,性能较 v1 提升了 3%。此外,与 v1 类似,v2 ...

2024-11-22 12:47:31 1227

原创 EMNLP 2024 BoF 活动报名:用 Embeddings、Reranker、小型语言模型打造更优搜索!

在 2023 年 EMNLP 大会上,Jina AI 举办了 一场关于向量技术前沿探索的 Bird of a Feather (BoF) 会议,超过 80 位参会者,包括 DeepMind、Meta 等机构的顶尖研究员以及行业专家们,一起讨论向量前沿技术的最新进展。<<< 闪电分享、圆桌讨论和午餐会>>>今年的 EMNLP 2024 在迈阿密举行,我们将延续在...

2024-11-07 20:58:57 902

原创 RAG 系统的分块难题:小型语言模型如何找到最佳断点?

之前我们聊过 RAG 里文档分块 (Chunking) 的挑战,也介绍了迟分 (Late Chunking) 的概念,它可以在向量化的时候减少上下文信息的丢失。今天,我们来聊聊另一个难题:如何找到最佳的分块断点。虽然迟分对边界位置不敏感,但也不代表我们可以随便乱切,毕竟可读性对人和大模型都很重要。所以我们现在的思路是:既然用了迟分,就不用太担心语义或上下文丢失的问题。边界好坏,迟分都能处理,因此...

2024-11-05 09:00:49 1286

原创 还在用 CLIP?Jina-CLIP 告诉你多模态搜索的正确打开方式

近年来,多模态搜索,或者说把文本和图像融合进统一的搜索体验,在 OpenAI 的 CLIP 等模型的带动下发展得如火如荼。这些模型有效地弥合了视觉数据和文本数据之间的语义鸿沟,可以把图像和相关的文本对应起来。然而,很多做实际应用的开发者很快会发现,CLIP 及其同类模型虽然在图文匹配上表现很出色,但在长文本理解和复杂语义关系处理上就力不从心了。所以我们推出了 jina-clip-v1,目标就是构建...

2024-10-31 17:38:19 1621 1

原创 Jina Classifier API:高性能的零样本和小样本分类器

分类是向量模型的常见下游应用。文本向量模型可以用来识别垃圾邮件或进行情感分析。对于多模态向量模型,比如 jina-clip-v1,可以被用于基于内容的筛选和标签标注等任务。最近,向量模型还充当了大模型路由器(LLM router)的角色,根据任务的复杂性和成本选择合适的模型:将简单的算术问题分配给小模型,将复杂的推理任务交由更强大的大模型。今天,我们 Jina AI 搜索底座推出了一款高性能分类器...

2024-10-23 16:54:07 1050 1

原创 Jina Embeddings v2 到 v3 的迁移指南

Jina Embeddings v3 我们最新推出的 5.7 亿参数的顶级文本向量模型,在多语言和长文本检索任务上达到当前最佳水平 SOTA。v3 不仅拥有更强大的性能,还有很多惊喜新功能。如果您仍在使用 2023 年 10 月发布的 Jina Embeddings v2,我们强烈建议您尽快迁移至 v3。先简单说下 Jina Embeddings v3 的亮点:支持 89 种语言: 突破 v2 只...

2024-10-22 08:00:43 1381

原创 多语言向量模型的语言鸿沟(Language Gap),对比学习能否带来突破?

多语言向量模型训练时,有一个棘手问题 -- 语言鸿沟(Language Gap)。简单来说,就是不同语言中表达相同含义的短语,它们的向量却可能相距甚远,无法有效对齐。理想情况下,一段文本及其不同语言的翻译版本,应该具有高度近似的向量表示。这样,我们才能像处理单语言文本一样,无缝地进行跨语言分析和应用。然而现实情况确是,模型在训练过程中容易关注原文的表层语言特征,形成一种“语义鸿沟”,导致跨语言任务...

2024-10-15 18:05:51 1278

原创 迟分是什么,不是什么【下篇】

本篇文章主要是把迟分策略里容易混淆的概念和对比再详细讲讲,强烈建议各位先去看看上一篇:【上篇】长文本 Embedding 模型中的“迟分”策略。建议阅读顺序:上篇、下篇、研究论文:https://arxiv.org/abs/2409.04701/把长文档切块,这其中有两个关键问题:首先,边界断点怎么定?你可以用固定长度的 Token,或者固定数量的句子,再高级点的就用正则表达式或者语义分割模型...

2024-10-14 14:01:39 931

原创 Jina Embeddings V3:站在多语言向量模型最前沿

还在为多语言的文本向量发愁?担心模型太大跑不动?Jina Embeddings V3 来了,这款 5.7 亿参数的顶级文本向量模型,在多语言和长文本检索任务上达到当前最佳水平 SOTA。内置多种 LoRA 适配器,可以根据你的需求,针对 检索、聚类、分类和匹配 的不同场景进行定制,获得更精准的向量化效果。多语言支持: 支持 89 种语言,全面超越 multilingual-e5-large-ins...

2024-09-20 10:00:42 3643

原创 全球首个多语言 ColBERT:Jina ColBERT V2 和它的‘俄罗斯套娃’技术

在 RAG 领域,多向量模型ColBERT通过为文档的每个 token 生成独立的向量,带来了检索精度的提升。但同样也带来了存储需求的剧增,并且仅支持英文,限制了其应用范围。为解决这些问题,我们改进了 ColBERT 的架构和训练流程,特别是在多语言处理方面取得了突破。最新的 Jina-ColBERT-v2 支持 89 种语言,并引入了自定义输出维度选项,显著减少存储需求,提升了多语言检索的效...

2024-09-04 19:13:37 1025

原创 长文本 Embedding 模型中的“迟分”策略

大约一年前,2023 年 10 月,我们推出了全球首个支持 8K 上下文长度的开源 Embedding 模型 —— jina-embeddings-v2-base-en。自此,长文本在 Embedding 模型中的应用引发了广泛讨论和争议。信息压缩问题:将数千字的长文本编码为单一 Embedding 表示会导致语义信息的"过度压缩",使得检索系统难以准确定位特定信息。检索粒度不足:许多应用,尤其是...

2024-08-26 11:58:52 1149

原创 大模型分不清 9.9 与 9.11 谁大,那 Embedding 模型呢?

这是我今天在维也纳举行的 ICML 会议上被问到的问题。在茶歇期间,一位 Jina 用户向我提出了一个源自 LLM 社区最近讨论的问题。他问我们 Jina Embeddings 能不能判断 9.11 比 9.9 更小,很多大模型在这个小问题上翻了车。我说:“老实说,我也不知道。” 他接着详细阐述了这个能力对于他应用的重要性,并暗示:Tokenizer 可能是问题的源头,我若有所思点点头,脑海里开始构思如何用实验来找到答案。

2024-08-05 17:50:25 1037

原创 Jina Reranker v2:多语言支持、函数调用、代码搜索,超快推理!

Jina Reranker v2 是专为 Agentic RAG 打造的高性能 Reranker 模型。它不仅支持 100 多种语言的精准搜索和代码检索,更将推理速度提升至前代产品的 6 倍。作为 Jina AI 的最新力作,Jina Reranker v2 为 RAG 系统开发者带来前所未有的效率和准确性。这款模型具备以下特性:多语言支持:覆盖上百种语言,搜索效果领先 bge-reranker-...

2024-07-01 17:52:33 3023

原创 Jina CLIP v1:一个模型,两种模态,四种搜索方向

Jina CLIP v1 沿用了 OpenAI CLIP 的双编码器架构:两个编码器共同训练,生成在同一向量空间中的输出结果。在文本编码器,我们采用自身的向量模型所使用的 Jina BERT v2 架构,支持高达 8k token 的长文本输入,输出维度 768,明显优于 CLIP,能够可以处理更长的文本,并生成更精确的向量。

2024-06-19 12:38:02 1262 1

原创 Jina CLIP v1:多模态向量模型,为文本和图像而生!

CLIP 模型架起了文本和图像的桥梁,但实际上很少有人会用它来进行文本检索,因为CLIP的文本编码器无法有效的对长文本进行语义建模。为了解决这一问题,我们推出了 Jina CLIP v1,一个增强版的 OpenAI CLIP 模型,擅长文本-文本、文本-图像、图像-文本、图像-图像四个方向的检索。从现在起,你的 CLIP 模型不仅是图像检索器,更是强大的文本检索器。在构建多模态 RAG 应用时,你...

2024-06-12 19:31:56 1706

原创 MIT 科技评论最新报告揭示多模态 AI 带来的巨大机遇

相比于单模态人工智能,能够同时处理多种类型信息的多模态AI技术,带来了更大的机遇,同时也要面临更复杂的挑战。MIT 科技评论在发布的最新洞察报告《多模态:人工智能的新前沿》中,详细阐述了多模态人工智能的发展状况和未来潜力,及其复杂性与挑战性。多模态是一个新兴术语,但它所描述的实际上是一种源远流长的理解方式:自人类出现以来,我们就是通过这种方式来了解世界的。人们通过视觉、听觉和触觉等多种感官,从各种...

2024-05-14 18:18:45 952

原创 Jina Reranker 新模型发布,更小、更快、更便宜!

在传统文本搜索技术已经相对成熟的背景下,如何进一步提高搜索的效率和速度成为了新的追求目标。应对这一挑战,Jina Reranker 模型系列推出了两款针对性能调优的新模型:jina-reranker-v1-turbo-en 和 jina-reranker-v1-tiny-en,它们在保证搜索高准确度的同时,特别强化了处理速度和资源优化。这两款模型现已上线AWS Sagemaker 和 Huggi...

2024-04-23 17:04:01 1320

原创 关注企业 RAG 应用私有部署,Jina AI 模型登陆 Amazon SageMaker

本文主要介绍了如何在 AWS(亚马逊云服务)上使用 Jina AI 的 Embeddings 和 Rerankers 模型来构建 RAG 应用,涵盖从配置 AWS 账户、设置 Python 环境、订阅模型、加载数据集、启动模型、构建和索引数据集的各个步骤。此外,还展示了如何利用FAISS 数据库进行语义搜索、以及整合 Mistral-Instruct LLM 用于生成结果等。Jina AI 的 ...

2024-04-18 15:16:42 1507

原创 搜索准确性提升 20%,Jina Reranker 成为 RAG 优化的新标杆!

日前,我们正式发布了 Jina Reranker(jina-reranker-v1-base-en),专为提高搜索准确性打造。Jina Reranker 在多个权威测评中屡获领先,实验数据显示,相比简单 RAG 系统,搭载该模型的检索系统命中率提高 8%,MRR 更是飙升 33%。

2024-03-05 19:55:51 1922

原创 RAG 领域的新宠:为什么 AI 圈都在谈论 Jina ColBERT?

向量模型新选择!

2024-02-27 03:52:02 1829

原创 Jina AI 请回答 2023

年度回顾- Jina AI-2023 年,正如它所对应的生肖“兔”,充满活力和智慧。AI 技术在全球范围内的颠覆性发展,让 2023 年成为大家公认的人工智能元年。作为从四年前成立起,就专注于多模态 AI 技术研发的前沿科技公司,我们在 2023 年取得了长足的进展。在这辞旧迎新之际,我们希望通过回顾过去一年在技术、产品、品牌、社区方面积累的成果,和大家一起迎接充满力量和希望的龙年!从 2020...

2024-02-06 16:02:28 1004 1

原创 Jina AI 发布中英和英德双语 8K 向量模型,百万 Token 大放送!

亮点提前看双语模型支持:继 8k 向量模型在 Huggingface 突破百万下载后,Jina Embeddings 系列又开源了中英、英德双语 8k 向量模型,分别为 jina-embeddings-v2-zh 和 jina-embeddings-v2-de。百万 Token 随心用:Jina AI 向所有用户赠送一百万 token,访问 jina.ai/embeddings 即可免费领取密钥,...

2024-02-02 16:44:35 1153

原创 Jina AI 发布中英和英德双语 8K 向量模型,即刻开源!

作为多模态人工智能技术领域的翘楚,Jina AI 的使命是通过创新的向量大模型和提示词技术,铺平通往多模态 AI 的未来之路。我们正在积极扩展多语言产品线,以满足更广泛的客户需求。在 Jina Embeddings 英语向量模型突破百万下载后,今天,我们正式开源了两款双语向量模型:中英双语(Chinese-English)和英德双语(English-German)向量模型,这也是全球首次推出支持 8K 双语文本的开源向量模型。

2024-01-29 18:33:21 1434

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除