本文是LLM系列文章,针对《Training Language Models to Generate Text with Citations via Fine-grained Rewards》的翻译。
摘要
虽然最近的大型语言模型(LLM)已被证明在回答用户查询方面很有用,但它们很容易产生幻觉,而且由于缺少对可靠来源的引用,它们的响应往往缺乏可信度。这些问题的直观解决方案是在文本中引用外部文件作为证据。虽然以前的工作直接促使LLM生成文本引用,但它们的表现远不能令人满意,尤其是当涉及到较小的LLM时。在这项工作中,我们提出了一个有效的训练框架,使用细粒度的奖励来教授LLM生成高度支持和相关的引用,同时确保其响应的正确性。我们还对将这些细粒度奖励应用于常见LLM训练策略进行了系统分析,展示了其相对于传统实践的优势。我们在取自ALCE基准的问答(QA)数据集上进行了广泛的实验,并使用EXPERTQA验证了模型的可推广性。关于LLaMA-2-7B,细粒度奖励的结合实现了基线中最好的性能,甚至超过了GPT-3.5-turbo。