Training Language Models to Generate Text with Citations via Fine-grained Rewards-优快云博客

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/136227848

本文探讨如何通过细粒度奖励训练大型语言模型（LLM），以提高其生成引用和提供可信响应的能力。研究发现，这种方法尤其适用于小型LLM，性能超越了ChatGPT，在ALCE和EXPERTQA数据集上表现优秀。未来的研究方向包括提高LLM的正确性回忆和阅读理解能力。

本文是LLM系列文章，针对《Training Language Models to Generate Text with Citations via Fine-grained Rewards》的翻译。

摘要

虽然最近的大型语言模型（LLM）已被证明在回答用户查询方面很有用，但它们很容易产生幻觉，而且由于缺少对可靠来源的引用，它们的响应往往缺乏可信度。这些问题的直观解决方案是在文本中引用外部文件作为证据。虽然以前的工作直接促使LLM生成文本引用，但它们的表现远不能令人满意，尤其是当涉及到较小的LLM时。在这项工作中，我们提出了一个有效的训练框架，使用细粒度的奖励来教授LLM生成高度支持和相关的引用，同时确保其响应的正确性。我们还对将这些细粒度奖励应用于常见LLM训练策略进行了系统分析，展示了其相对于传统实践的优势。我们在取自ALCE基准的问答（QA）数据集上进行了广泛的实验，并使用EXPERTQA验证了模型的可推广性。关于LLaMA-2-7B，细粒度奖励的结合实现了基线中最好的性能，甚至超过了GPT-3.5-turbo。

1 引言

2 问题定义和方法

3 实验设置

4 结果和分析

5 相关工作

6 结论

在这项工作中，我们系统地分析了可归因文本生成的常见LLM训练方法。我们发现，使用细粒度奖励进行训练可以最大限度地提高性能，也使小型LLM的性能优于ChatGPT。
我们提出了一些探索方向。首先，我们的检索分析显示了进一步提高LLM在QA数据集上的正确性回忆的空间，并且可以做更多的工作来增强LLM给定检索到的文档的阅读理解和综合能力。其次，根据Touv