长文本 Embedding 模型中的“迟分”策略

最新推荐文章于 2025-06-25 14:04:33 发布

Jina AI

最新推荐文章于 2025-06-25 14:04:33 发布

阅读量1.2k

点赞数 17

CC 4.0 BY-SA版权

文章标签： embedding

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/Jina_AI/article/details/141578551

大约一年前，2023 年 10 月，我们推出了全球首个支持 8K 上下文长度的开源 Embedding 模型 —— jina-embeddings-v2-base-en。自此，长文本在 Embedding 模型中的应用引发了广泛讨论和争议。

信息压缩问题：将数千字的长文本编码为单一 Embedding 表示会导致语义信息的"过度压缩"，使得检索系统难以准确定位特定信息。
检索粒度不足：许多应用，尤其是检索增强生成（RAG）系统，需要检索文档中的较小片段，而非整个长文档。
短文本检索优势：基于密集向量的检索系统在处理短文本时通常表现更好，因为短文本的语义信息更容易被准确编码和检索。

一个典型的 RAG Pineline 包括：分块-Embedding-检索-生成。

那么，如果行业只需要具有 512 上下文长度的 Embedding 模型，那么训练 8192 上下文长度的模型又有什么意义呢？

在本文中，我们通过探讨 RAG 中传统分块 -> Embeddings 流程的局限性，来重新审视这个问题。同时，我们还引入了一种新策略，称为迟分(Late Chunking)，能够在保留长文本 Embedding 模型优势的同时，也能满足精细粒度检索的需求。

上下文丢失问题

传统的分块 - Embedding - 检索 - 生成流程在处理长文档时可能会丢失长距离的上下文依赖关系，这对于信息检索和理解是一大隐患。换句话说，当关键信息散落在多个文本块中，脱离上下文的文本片段很可能失去其原有的意义，导致处理效果大打折扣。

以维基百科上的一篇关于柏林的文章为例，若将其分割为句子块，不难发现诸如“其”和“这座城市”等指代表达，实际上指向的是文章开头提到的“柏林

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。