Training Language Models to Generate Text with Citations via Fine-grained Rewards

828 篇文章

已下架不支持订阅

本文探讨如何通过细粒度奖励训练大型语言模型(LLM),以提高其生成引用和提供可信响应的能力。研究发现,这种方法尤其适用于小型LLM,性能超越了ChatGPT,在ALCE和EXPERTQA数据集上表现优秀。未来的研究方向包括提高LLM的正确性回忆和阅读理解能力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列文章,针对《Training Language Models to Generate Text with Citations via Fine-grained Rewards》的翻译。

通过细粒度奖励训练语言模型生成带引文的文本

摘要

虽然最近的大型语言模型(LLM)已被证明在回答用户查询方面很有用,但它们很容易产生幻觉,而且由于缺少对可靠来源的引用,它们的响应往往缺乏可信度。这些问题的直观解决方案是在文本中引用外部文件作为证据。虽然以前的工作直接促使LLM生成文本引用,但它们的表现远不能令人满意,尤其是当涉及到较小的LLM时。在这项工作中,我们提出了一个有效的训练框架,使用细粒度的奖励来教授LLM生成高度支持和相关的引用,同时确保其响应的正确性。我们还对将这些细粒度奖励应用于常见LLM训练策略进行了系统分析,展示了其相对于传统实践的优势。我们在取自ALCE基准的问答(QA)数据集上进行了广泛的实验,并使用EXPERTQA验证了模型的可推广性。关于LLaMA-2-7B,细粒度奖励的结合实现了基线中最好的性能,甚至超过了GPT-3.5-turbo。

1 引言

2 问题定义和方法

3 实验设置

4 结果和分析

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值