在多轮对话场景下引入 RAG(Retrieval-Augmented Generation)后,对 SFT(Supervised Fine-Tuning)数据的挑选与组织就变得更加复杂,也更加关键。因为此时模型不只需要理解上下文、多轮交互逻辑,还要根据外部检索到的文档进行实时生成或回答。要想在这种体系下高效挑选数据,需要综合考虑多轮对话与检索流程的完整性、准确性、相关性与多样性。以下将结合 RAG 典型流程与多轮对话的特点,从数据形态、标注格式、筛选标准等角度进行深入分析与实践建议。
---
一、RAG+多轮对话的核心流程与挑战