RAG分块策略,固定大小、文档结构、语义理解、多模态文档

1 基于固定大小的分块

固定大小分块

场景:适用于文档结构较为一致,内容长度相似的情况。
通常按字数、标记数或字符数。
描述:将文档等分为固定大小的块,简单直接

  • 需要一种简单明了的方法并且文档结构并不重要时。它在处理较小、不太复杂的文档时效果很好。
  • 优势:
    易于实施。
    一致的块大小。
    快速计算。
  • 弊:
    可能会断开句子或段落,从而丢失上下文。
    对于保持含义很重要的文档来说,这并不理想。

滑动窗口分块

滑动窗口分块会创建重叠的数据块,从而允许每个数据块与下一个数据块共享其部分内容。当您需要确保块之间上下文的连续性时,例如在法律或学术文档中。

  • 优势:
    跨数据块保留上下文。
    减少数据块边界处的信息丢失。
  • 弊:
    可能会通过在多个块中重复内容来引入冗余。
    需要更多处理。

基于令牌分块

基于标记的分块根据固定数量的标记而不是单词或句子来拆分文本。它使用来自 NLP 模型的分词器。对于对 Token 进行作的模型,例如具有 Token 限制的基于 transformer 的模型(例如 GPT-3 或 GPT-4)。

  • 优势:
    适用于基于 transformer 的模型。
    确保遵守令牌限制。
  • 弊:
    分词可能会拆分句子或破坏上下文。
    并不总是与自然语言边界保持一致。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值