构建RAG后如何选择合适的Embedding_embedding 切割多少字合适-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_22337877/article/details/146384376

1 选择合适embedding关键指标

1. 上下文窗口（Context Window）

定义：模型单次处理的最大文本长度（以token数为单位）。token可以是单词、子词或标点符号。
影响：
- 长文本处理：长上下文窗口（如8k tokens）适合处理文档摘要、长段落检索或问答任务。
- 效率权衡：窗口过长可能导致计算资源消耗增加，需平衡性能和成本。
示例：
- OpenAI的text-embedding-3-large和text-embedding-ada-002均支持8192 tokens的输入，可处理整篇学术论文或长报告。
- 对比模型如BERT（512 tokens）或RoBERTa（1k tokens）在处理长文档时需分段输入，可能导致语义割裂。

2. 分词单元（Tokenization Unit）

定义：将文本拆分为模型可处理的最小单元（如子词、单词）的方法。
方法对比：
- 子词分词（BPE/WordPiece）：解决罕见词问题，例如将“unhappiness”拆分为un+happiness。
- 词级分词：简单但词表庞大，难以处理未登录词。
影响：
- 分词方法影响模型对专业术语、多语言或拼写错误的鲁棒性。
- 跨语言支持：多语言模型需统一分词策略（如Unicode编码）。
示例：
- OpenAI使用cl100k_base分词器（与GPT-4相同），支持多语言混合文本。
- BERT使用WordPiece分词，对罕见词（如医学术语）可能拆分过度，影响语义连贯性。