本文是LLM系列文章,针对《Interactive DualChecker for Mitigating Hallucinations in Distilling Large Language Models》的翻译。
摘要
大型语言模型 (LLM) 在各种机器学习 (ML) 任务中展示了卓越的功能。鉴于为监督学习创建带注释的数据集的成本很高,LLM 通过实现有效的小样本上下文学习提供了一种有价值的替代方案。然而,这些模型会产生幻觉,尤其是在知识不完整的领域。此外,当前使用 LLM 进行知识蒸馏的方法通常难以提高教师和学生模型的有效性。为了应对这些挑战,我们引入了 DualChecker,这是一个创新框架,旨在减轻幻觉并提高教师和学生模型在知识蒸馏过程中的表现。DualChecker 使用 ContextAligner 来确保教师模型提供的上下文与人工标记标准保持一致。它还具有一个动态检查器系统,可增强模型交互:当教师模型显示置信度较低时,一个组件会用更详细的内容重新提示教师模型,另一个组件会从学生模型中识别边缘案例以优化教学模板。此交互式过程可促进模型之间的持续改进和有效知识传递。我们使用绿色创新文本数据集评估 DualChecker,其中包括二进制、多类和标记分类任务。实验结果表明,DualChecker 的性能明显优于现有的最先进的方法,教师模型的 F1 分数提高了 17%,学生模型的 F1 分数提高了 10%。值得注意的是,即使在具有挑战性的领域,使用 LLM 预测进行微调的学生模型的性能也与使用实际数据进行微调的学生模型相当。我们公开了这项研究的所有数据集、模型和代码。