RAG 中的分块策略:从基础到前沿的全面剖析

RAG结合了检索和生成的能力,能够针对用户查询从大型数据集中提取相关信息,并据此生成准确的回答。然而,由于LLMs一次只能处理有限数量的标记(tokens),如何将大型数据集分割成适合LLMs处理的小块,即“chunking”,成为了RAG系统中的关键环节。本文将深入探讨chunking策略(LLM在文本切块中的应用与实践),分析其优缺点,并探讨如何选择最适合特定数据集和应用场景的chunking策略。

图片

一、Chunking的重要性

在处理大规模文本数据时,LLMs面临一个根本性的限制:它们一次只能处理有限数量的标记。这意味着我们不能直接将整个数据集传递给LLMs以寻求答案。Chunking正是为了解决这一问题而诞生的。通过将大型数据集分割成较小的子集(chunks),我们可以确保每个子集都在LLMs的处理能力范围内,同时仍然能够产生尽可能准确的结果。因此,chunking策略(

下载前可以先看下教程 https://pan.quark.cn/s/16a53f4bd595 小天才电话手表刷机教程 — 基础篇 我们将为您简单的介绍小天才电话手表新机型的简单刷机以及玩法,如adb工具的使用,magisk的刷入等等。 我们会确保您看完此教程后能够对Android系统有一个最基本的认识,以及能够成功通过magisk root您的手表,并安装您需要的第三方软件。 ADB Android Debug Bridge,简称,在android developer的adb文档中是这么描述它的: 是一种多功能命令行工具,可让您与设备进行通信。 该命令有助于各种设备操作,例如安装和调试应用程序。 提供对 Unix shell 的访问,您可以使用它在设备上运行各种命令。 它是一个客户端-服务器程序。 这听起来有些难以理解,因为您也没有必要去理解它,如果您对本文中的任何关键名词产生疑惑或兴趣,您都可以在搜索引擎中去搜索它,当然,我们会对其进行简单的解释:是一款在命令行中运行的,用于对Android设备进行调试的工具,并拥有比一般用户以及程序更高的权限,所以,我们可以使用它对Android设备进行最基本的调试操作。 而在小天才电话手表上启用它,您只需要这么做: - 打开拨号盘; - 输入; - 点按打开adb调试选项。 其次是电脑上的Android SDK Platform-Tools的安装,此工具是 Android SDK 的组件。 它包括与 Android 平台交互的工具,主要由和构成,如果您接触过Android开发,必然会使用到它,因为它包含在Android Studio等IDE中,当然,您可以独立下载,在下方选择对应的版本即可: - Download SDK Platform...
已经博主授权,源码转载自 https://pan.quark.cn/s/b24469074755 SmartDNS English SmartDNS SmartDNS 是一个运行在本地的 DNS 服务器,它接受来自本地客户端的 DNS 查询请求,然后从多个上游 DNS 服务器获取 DNS 查询结果,并将访问速度最快的结果返回给客户端,以此提高网络访问速度。 SmartDNS 同时支持指定特定域名 IP 地址,并高性匹配,可达到过滤广告的效果; 支持DOT,DOH,DOQ,DOH3,更好的保护隐私。 与 DNSmasq 的 all-servers 不同,SmartDNS 返回的是访问速度最快的解析结果。 支持树莓派、OpenWrt、华硕路由器原生固件和 Windows 系统等。 使用指导 SmartDNS官网:https://pymumu..io/smartdns 软件效果展示 仪表盘 SmartDNS-WebUI 速度对比 阿里 DNS 使用阿里 DNS 查询百度IP,并检测结果。 SmartDNS 使用 SmartDNS 查询百度 IP,并检测结果。 从对比看出,SmartDNS 找到了访问 最快的 IP 地址,比阿里 DNS 速度快了 5 倍。 特性 多虚拟DNS服务器 支持多个虚拟DNS服务器,不同虚拟DNS服务器不同的端口,规则,客户端。 多 DNS 上游服务器 支持配置多个上游 DNS 服务器,并同时进行查询,即使其中有 DNS 服务器异常,也不会影响查询。 支持每个客户端独立控制 支持基于MAC,IP地址控制客户端使用不同查询规则,可实现家长控制等功能。 返回最快 IP 地址 支持从域名所属 IP 地址列表中查找到访问速度最快的 IP 地址,并返回给客户端,提高...
### RAG 架构中文本分块方法的实现 在检索增强生成(Retrieval-Augmented Generation, RAG)架构中,文本分块是一种关键的技术手段,用于提高系统的效率和准确性。通过合理的文本分块策略,可以显著减少计算资源消耗并提升模型的表现。 #### 前沿项目与常见策略 目前存在多种文本分块策略可供选择,这些策略各有优劣,适用于不同的应用场景[^1]。以下是几种常见的文本分块方式及其适用场景: - **固定长度分块**:将文档按照固定的字符数或词数切分为多个片段。这种方式简单易行,但在处理复杂结构化数据时可能丢失重要信息。 - **基于句法分析的分块**:利用自然语言处理工具解析句子间的逻辑关系,从而划分出具有独立意义的小段落。此方法能够较好地保留原文含义,但实施起来较为复杂[^2]。 - **智能体式分块**:这是一种先进的动态分块技术,依靠预训练的语言模型或其他形式的人工智能算法来自适应地决定最佳切割位置。相比传统规则驱动的方法更加灵活精准[^2]。 - **后期分块(Late Chunking)**:不同于前期即完成全部内容拆解的做法,“后期分块”是在查询阶段才执行具体操作的一种延迟机制。这样不仅可以降低内存占用率而且有助于聚焦于最相关部分的数据提取过程[^3]。 #### 动态调整依据 为了达到最优效果,在实际部署过程中往往需要考虑以下几个方面来进行个性化定制化的参数调节工作: - 数据特性: 不同领域内的资料可能存在巨大差异因此要针对特定类型的素材制定专门方案; - 查询模式: 用户提问习惯也会影响最终呈现样式所以应该观察历史记录找出规律加以运用 ; - 性能指标: 平衡速度与质量之间的取舍也是不可忽视的一环. 下面给出一段 Python 示例代码展示如何使用 Hugging Face Transformers 库配合 FAISS 向量数据库来创建一个简单的 RAG 系统框架下的文本分块功能模块: ```python from transformers import AutoTokenizer, DPRContextEncoder, DPRQuestionEncoder import faiss import numpy as np def create_chunks(texts, tokenizer, max_length=512): chunks = [] for text in texts: tokens = tokenizer.tokenize(text) current_chunk = "" for token in tokens: if len(tokenizer(current_chunk + token)['input_ids']) <= max_length: current_chunk += token else: chunks.append(current_chunk.strip()) current_chunk = token if current_chunk != "": chunks.append(current_chunk.strip()) return chunks tokenizer = AutoTokenizer.from_pretrained('facebook/dpr-ctx_encoder-single-nq-base') texts = ["这是一个测试例子用来说明如何进行文本分块.", "..."] # 替换为您的真实文本列表 chunks = create_chunks(texts, tokenizer) # 将chunk转换成向量表示以便后续索引建立... context_model = DPRContextEncoder.from_pretrained('facebook/dpr-ctx_encoder-single-nq-base') vectors = context_model(**tokenizer(chunks, padding=True, truncation=True, return_tensors="pt")).pooler_output.detach().numpy() index = faiss.IndexFlatL2(vectors.shape[1]) faiss.normalize_L2(vectors) index.add(vectors) print("Index built successfully with", index.ntotal, "entries.") ``` 上述脚本定义了一个函数 `create_chunks` 来按指定的最大长度对输入文本集合做初步分割;接着加载了 Facebook 提供的一个上下文编码器实例作为特征映射组件,并把得到的结果存入到 Faiss 中形成高效的近似最近邻搜索结构以支持快速检索服务。 ---
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型之路

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值