本文是LLM系列文章,针对《Are LLMs Good Literature Review Writers? Evaluating the Literature Review Writing Ability of Large Language Models》的翻译。
摘要
文献综述是学术写作的一种重要形式,涉及文献收集、组织和总结的复杂过程。大型语言模型(LLM)的出现引入了有前景的工具来自动化这些过程。然而,他们在撰写综合文献综述方面的实际能力仍然没有得到充分探索,例如他们是否能够生成准确可靠的参考文献。为了弥补这一差距,我们提出了一个自动评估LLM文献综述写作能力的框架。我们评估LLM在三个任务中的表现:生成参考文献、撰写摘要和撰写文献综述。我们采用外部工具进行多维评估,包括评估参考文献中的幻觉率、语义覆盖率以及与人类书面语境的事实一致性。通过分析实验结果,我们发现,尽管取得了进步,但即使是最复杂的模型也无法避免产生幻觉参考。此外,不同的模型在不同学科的文献综述写作中表现出不同的表现。
1 引言
2 相关工作
3 方法
4 实验
5 结论
本文提出了一个评估LLM文献综述写作能力的框架。该框架包括三个任务,旨在评估LLM的文献综述写作能力。然后,使用各种工具(如语义学者和NLI模型)从多个维度对生成的输出进行评估,重点关注幻觉率、语义覆盖率和与人类书写文本相比的事实一致性等方面。最后,我们从不同学科的角度分析了LLM在撰写文献综述方面的表现。
我们选择了四个LLM进行任务评估,发现Claude-3.5-Sonnet在所有三个任务中都优于GPT-4o、Qwen-2.5-72B和Llama-3.2-3B,特别是在生成准确参考的任务中表现出色。这一优势可能受到每个模型的
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



