-
研究背景:
随着大型语言模型(LLMs)的发展,它们在复杂基准测试(如Human Eval和Big Bench)和专业考试(如SAT、GRE和LSAT)中展现出了令人印象深刻的能力。然而,尽管LLMs在这些领域取得了显著进步,但与顶尖人类表现者之间的差距仍然存在。此外,最近的研究表明,现有的知识蒸馏模型(如Vicuna、Alpaca和Orca)主要模仿对话格式,而不是提高推理能力或事实准确性。这些模型在微调(SFT)后虽然能够生成结构良好的输出,但内容常常包含错误或与主题显著偏离。 -
过去方案和缺点:
过去的研究主要集中在通过监督式微调(SFT)来提高LLMs的性能,但这些研究面临批评,因为它们认为SFT主要是格式任务,而不是实质性地提高模型的推理能力。此外,数据清洗方法的研究虽然取得了显著进展,但对齐(alignment)在SFT数据集中的存在可能对模型性能产生负面影响,这一点在以往的研究中并未得到充分关注。 -
本文方案和步骤:
本文提出了一种新的数据集清洗方法,特别关注对齐对SFT数据集的影响。研究者从GoatChat应用中收集数据,并进行了基本的质量过滤、数据合并、精确和模糊去重以及对齐移除。通过这些步骤,研究者创建了一个去除了对齐答案的数据集,并用它来微调模型。实验设置包括在8xA100 NVIDIA GPU上进行计算,使用bfloat16和DeepSpeed ZeRO-3进行训练,以及使用AdamW优化器。 -
本文实验和性能:
研究者在多个推理基准测试(如MMLU、BB