构建RAG后如何选择合适的Embedding

1 选择合适embedding关键指标

1. 上下文窗口(Context Window)

  • 定义:模型单次处理的最大文本长度(以token数为单位)。token可以是单词、子词或标点符号。

  • 影响

    • 长文本处理:长上下文窗口(如8k tokens)适合处理文档摘要、长段落检索或问答任务。

    • 效率权衡:窗口过长可能导致计算资源消耗增加,需平衡性能和成本。

  • 示例

    • OpenAI的text-embedding-3-largetext-embedding-ada-002均支持8192 tokens的输入,可处理整篇学术论文或长报告。

    • 对比模型如BERT(512 tokens)或RoBERTa(1k tokens)在处理长文档时需分段输入,可能导致语义割裂。

2. 分词单元(Tokenization Unit)

  • 定义:将文本拆分为模型可处理的最小单元(如子词、单词)的方法。

  • 方法对比

    • 子词分词(BPE/WordPiece):解决罕见词问题,例如将“unhappiness”拆分为un+happiness

    • 词级分词:简单但词表庞大,难以处理未登录词。

  • 影响

    • 分词方法影响模型对专业术语、多语言或拼写错误的鲁棒性。

    • 跨语言支持:多语言模型需统一分词策略(如Unicode编码)。

  • 示例

    • OpenAI使用cl100k_base分词器(与GPT-4相同),支持多语言混合文本。

    • BERT使用WordPiece分词,对罕见词(如医学术语)可能拆分过度,影响语义连贯性。

3. 维度(Dimensionality)

  • 定义:嵌入向量的长度(如

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数据分析能量站

谢谢支持

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值