1 基于固定大小的分块
固定大小分块
场景:适用于文档结构较为一致,内容长度相似的情况。
通常按字数、标记数或字符数。
描述:将文档等分为固定大小的块,简单直接
- 需要一种简单明了的方法并且文档结构并不重要时。它在处理较小、不太复杂的文档时效果很好。
- 优势:
易于实施。
一致的块大小。
快速计算。- 弊:
可能会断开句子或段落,从而丢失上下文。
对于保持含义很重要的文档来说,这并不理想。
滑动窗口分块
滑动窗口分块会创建重叠的数据块,从而允许每个数据块与下一个数据块共享其部分内容。当您需要确保块之间上下文的连续性时,例如在法律或学术文档中。
- 优势:
跨数据块保留上下文。
减少数据块边界处的信息丢失。- 弊:
可能会通过在多个块中重复内容来引入冗余。
需要更多处理。
基于令牌分块
基于标记的分块根据固定数量的标记而不是单词或句子来拆分文本。它使用来自 NLP 模型的分词器。对于对 Token 进行作的模型,例如具有 Token 限制的基于 transformer 的模型(例如 GPT-3 或 GPT-4)。
- 优势:
适用于基于 transformer 的模型。
确保遵守令牌限制。- 弊:
分词可能会拆分句子或破坏上下文。
并不总是与自然语言边界保持一致。

最低0.47元/天 解锁文章
1407

被折叠的 条评论
为什么被折叠?



