Investigating Answerability of LLMs for Long-Form Question Answering

828 篇文章

已下架不支持订阅

本文探讨大规模语言模型(如ChatGPT)与开源模型在长形式问答(LFQA)上的表现,通过从摘要生成问题来挑战LLM的推理能力。实验显示,这种方法揭示了两者之间的性能差距,尤其是在处理长上下文时。

本文是LLM系列的文章,针对《Investigating Answerability of LLMs for Long-Form Question Answering》的翻译。

摘要

随着我们进入LLM的新时代,了解它们的能力、局限性和差异变得越来越重要。为了在这一方向上取得进一步进展,我们努力更深入地了解大规模LLM(例如,ChatGPT)与规模较小但有效的开源LLM及其提炼出的同行之间的差距。为此,我们特别关注长形式问答(LFQA),因为它有几个实用且有影响力的应用程序(例如,故障排除、客户服务等),但对LLM来说仍然研究不足,具有挑战性。我们提出了一种从抽象摘要中生成问题的方法,并表明从长文档的摘要中生成后续问题可以为LLM从长上下文中推理和推断创造一个具有挑战性的环境。我们的实验结果证实:(1)我们提出的从抽象摘要生成问题的方法对LLM构成了一个具有挑战性的设置,并显示了ChatGPT等LLM与开源LLM(Alpaca,Llama)之间的性能差距,但他们的生成能力在摘要生成的问题上显著下降–尤其是对于较长的上下文(>1024个token)。

1 引言

2 相关工作

3 提出的评估方法

4 结果与分析

5 结论

随着像ChatGPT这样的LLM和开源成功的LLM的出现,了解不同LLM的功能和局限性是极其重要的。为了通过参考较长的上下文来测试LLM更深层次的推理能力,我们评估了LLM对ChatGPT在长文档摘要上生成的问题的回答。结果表明,我们提出的问题生成方法对LLM提出了一个具有挑战性的设置,并揭示了大规模LLM和开源LLM之间的性能差距。我们希望我们的分析能推动未来的研究

已下架不支持订阅

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值