训练emb模型+ reranker模型的经验：cls而不是mean token,数据质量重要，难负例重要

原创于 2025-08-05 00:15:21 发布 · 494 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #python #人工智能

自然语言处理专栏收录该内容

106 篇文章

订阅专栏

一 Embedding模型微调

目标：使模型生成的向量在语义空间中更贴合特定领域/任务的相似性需求（例如医学文本、法律条款、电商商品描述）。

核心方法：对比学习（Contrastive Learning）

原理：让相似的样本（正样本对）向量靠近，不相似的样本（负样本对）向量远离。

常用损失函数：
MultipleNegativesRankingLoss：最常用且效果通常较好。在一个batch内，将一个query的正文档作为其正样本，将其他query的正文档视为该query的负样本。
TripletLoss：需要显式构造(anchor, positive, negative)三元组。
CosineSimilarityLoss：直接优化query和文档embedding之间的余弦相似度得分。

微调步骤：

准备训练数据：

格式：(query, positive_document) 对。
关键：正样本必须是真正相关的文档（高质量标注数据最重要！）。
负样本：通常在训练时动态生成（如in-batch negatives），也可以显式添加困难负样本提升效果。
数据来源：人工标注、点击日志（用户点击的作为正样本）、链接数据（如维基百科内部链接）、生成式模型（如GPT-4）生成。

选择预训练模型：

通用文本Embedding模型：
text-embedding-ada-002、BAAI/bge-base-en-v1.5、intfloat/e5-base-v2、sentence-transformers/all-mpnet-base-v2。

选择工具/库：

Sentence Transformers：最推荐！封装了训练流程、损失函数、评估方法。
Hugging Face Transformers：更底层，灵活性更高。
Haystack：封装了训练流程，方便集成到流水线中。

关键参数与技巧：

Batch Size：越大通常越好（能提供更多in-batch negatives），受显存限制。
学习率：较小的学习率（如2e-5到5e-5）比较安全。可使用学习率调度器（如warmup）。
温度参数：某些损失函数（如CoSENTLoss）有温度参数，可调节相似度得分的分布。
困难负样本：显式添加与query相似但不相关的文档作为负样本，能显著提升模型区分能力。
双编码器 vs 交叉编码器：Embedding微调通常训练双编码器，query和doc独立编码，利于大规模检索。

评估：

内在评估：在标注了相关性的开发集上计算指标（如Spearman相关系数、余弦相似度相关性）。
外在评估：将微调后的Embedding模型集成到检索系统中，看最终检索效果（Recall@K, MRR, NDCG等）的提升。

二、Rerank模型微调

目标：对初步检索（如使用Embedding模型）返回的Top K个候选文档，进行更精细的相关性排序。

核心方法：文本对分类（Text Pair Classification）

原理：将(query, document)对输入模型，模型输出一个相关性分数或分类标签（相关/不相关）。

常用损失函数：
CrossEntropyLoss：最常用，模型输出一个分数，与真实标签计算损失。
MSE Loss：回归任务，模型直接预测相关性分数。

微调步骤：

准备训练数据：

格式：(query, document, relevance_score/label) 三元组。
关键：
relevance_score/label 需要高质量标注（如0-1分数，0/1标签，或多级相关性如0-4）。
负样本应主要来自初步检索返回的困难负样本（看起来相关但实际不相关），而非随机负样本。
数据来源：人工标注（针对初步检索结果）、日志数据（用户对检索结果的后续交互行为，如点击、停留时长、跳过）。

选择预训练模型：

强大的序列理解模型：
bert-base-uncased, roberta-base, microsoft/deberta-v3-base, BAAI/bge-reranker-base等。通常比Embedding模型更大。

选择工具/库：

Hugging Face Transformers：最常用和灵活。
Sentence Transformers：支持CrossEncoder类，封装了训练和预测接口。
Haystack：封装了训练流程。

关键参数与技巧：

输入长度：Rerank需要理解query和doc的细节，通常允许较长的最大序列长度（如512）。
批次大小：受模型大小和序列长度限制，通常比Embedding微调小得多。
学习率：较小的学习率（如1e-5到5e-5）。
负样本策略：训练数据中必须包含高质量的困难负样本，这是提升Rerank效果的核心。

任务类型：

回归：预测相关性分数（0-1）。
分类：预测相关/不相关（二分类）或多级相关性（多分类）。
交叉编码器：Rerank微调训练的是交叉编码器，query和doc一起输入模型进行交互计算，计算代价高，不适合大规模候选集。

评估：

排序指标：在标注了相关性的测试集上计算：
NDCG@K：最常用，考虑位置和分级相关性。
MAP / MRR：衡量相关文档排在前面位置的能力。
Precision@K / Recall@K：衡量前K个结果的相关性比例/召回比例。
端到端评估：将微调后的Reranker集成到完整检索流水线中，评估最终输出结果的业务指标。