本文是LLM系列文章,针对《Training Language Models to Generate Text with Citations via Fine-grained Rewards》的翻译。
摘要
虽然最近的大型语言模型(LLM)已被证明在回答用户查询方面很有用,但它们很容易产生幻觉,而且由于缺少对可靠来源的引用,它们的响应往往缺乏可信度。这些问题的直观解决方案是在文本中引用外部文件作为证据。虽然以前的工作直接促使LLM生成文本引用,但它们的表现远不能令人满意,尤其是当涉及到较小的LLM时。在这项工作中,我们提出了一个有效的训练框架,使用细粒度的奖励来教授LLM生成高度支持和相关的引用,同时确保其响应的正确性。我们还对将这些细粒度奖励应用于常见LLM训练策略进行了系统分析,展示了其相对于传统实践的优势。我们在取自ALCE基准的问答(QA)数据集上进行了广泛的实验,并使用EXPERTQA验证了模型的可推广性。关于LLaMA-2-7B,细粒度奖励的结合实现了基线中最好的性能,甚至超过了GPT-3.5-turbo。
1 引言
2 问题定义和方法
3 实验设置
4 结果和分析
5 相关工作
6 结论
在这项工作中,我们系统地分析了可归因文本生成的常见LLM训练方法。我们发现,使用细粒度奖励进行训练可以最大限度地提高性能,也使小型LLM的性能优于ChatGPT。
我们提出了一些探索方向。首先,我们的检索分析显示了进一步提高LLM在QA数据集上的正确性回忆的空间,并且可以做更多的工作来增强LLM给定检索到的文档的阅读理解和综合能力。其次,根据Touv
本文探讨如何通过细粒度奖励训练大型语言模型(LLM),以提高其生成引用和提供可信响应的能力。研究发现,这种方法尤其适用于小型LLM,性能超越了ChatGPT,在ALCE和EXPERTQA数据集上表现优秀。未来的研究方向包括提高LLM的正确性回忆和阅读理解能力。
已下架不支持订阅

被折叠的 条评论
为什么被折叠?



