本文是LLM系列的文章,针对《Investigating Answerability of LLMs for Long-Form Question Answering》的翻译。
摘要
随着我们进入LLM的新时代,了解它们的能力、局限性和差异变得越来越重要。为了在这一方向上取得进一步进展,我们努力更深入地了解大规模LLM(例如,ChatGPT)与规模较小但有效的开源LLM及其提炼出的同行之间的差距。为此,我们特别关注长形式问答(LFQA),因为它有几个实用且有影响力的应用程序(例如,故障排除、客户服务等),但对LLM来说仍然研究不足,具有挑战性。我们提出了一种从抽象摘要中生成问题的方法,并表明从长文档的摘要中生成后续问题可以为LLM从长上下文中推理和推断创造一个具有挑战性的环境。我们的实验结果证实:(1)我们提出的从抽象摘要生成问题的方法对LLM构成了一个具有挑战性的设置,并显示了ChatGPT等LLM与开源LLM(Alpaca,Llama)之间的性能差距,但他们的生成能力在摘要生成的问题上显著下降–尤其是对于较长的上下文(>1024个token)。
1 引言
2 相关工作
3 提出的评估方法
4 结果与分析
5 结论
随着像ChatGPT这样的LLM和开源成功的LLM的出现,了解不同LLM的功能和局限性是极其重要的。为了通过参考较长的上下文来测试LLM更深层次的推理能力,我们评估了LLM对ChatGPT在长文档摘要上生成的问题的回答。结果表明,我们提出的问题生成方法对LLM提出了一个具有挑战性的设置,并揭示了大规模LLM和开源LLM之间的性能差距。我们希望我们的分析能推动未来的研究
本文探讨大规模语言模型(如ChatGPT)与开源模型在长形式问答(LFQA)上的表现,通过从摘要生成问题来挑战LLM的推理能力。实验显示,这种方法揭示了两者之间的性能差距,尤其是在处理长上下文时。
已下架不支持订阅
1183

被折叠的 条评论
为什么被折叠?



