1 选择合适embedding关键指标
1. 上下文窗口(Context Window)
-
定义:模型单次处理的最大文本长度(以token数为单位)。token可以是单词、子词或标点符号。
-
影响:
-
长文本处理:长上下文窗口(如8k tokens)适合处理文档摘要、长段落检索或问答任务。
-
效率权衡:窗口过长可能导致计算资源消耗增加,需平衡性能和成本。
-
-
示例:
-
OpenAI的
text-embedding-3-large
和text-embedding-ada-002
均支持8192 tokens的输入,可处理整篇学术论文或长报告。 -
对比模型如BERT(512 tokens)或RoBERTa(1k tokens)在处理长文档时需分段输入,可能导致语义割裂。
-
2. 分词单元(Tokenization Unit)
-
定义:将文本拆分为模型可处理的最小单元(如子词、单词)的方法。
-
方法对比:
-
子词分词(BPE/WordPiece):解决罕见词问题,例如将“unhappiness”拆分为
un
+happiness
。 -
词级分词:简单但词表庞大,难以处理未登录词。
-
-
影响:
-
分词方法影响模型对专业术语、多语言或拼写错误的鲁棒性。
-
跨语言支持:多语言模型需统一分词策略(如Unicode编码)。
-
-
示例:
-
OpenAI使用
cl100k_base
分词器(与GPT-4相同),支持多语言混合文本。 -
BERT使用WordPiece分词,对罕见词(如医学术语)可能拆分过度,影响语义连贯性。
-
3. 维度(Dimensionality)
-
定义:嵌入向量的长度(如