本文是LLM系列文章,针对《Are LLMs Good Literature Review Writers? Evaluating the Literature Review Writing Ability of Large Language Models》的翻译。
摘要
文献综述是学术写作的一种重要形式,涉及文献收集、组织和总结的复杂过程。大型语言模型(LLM)的出现引入了有前景的工具来自动化这些过程。然而,他们在撰写综合文献综述方面的实际能力仍然没有得到充分探索,例如他们是否能够生成准确可靠的参考文献。为了弥补这一差距,我们提出了一个自动评估LLM文献综述写作能力的框架。我们评估LLM在三个任务中的表现:生成参考文献、撰写摘要和撰写文献综述。我们采用外部工具进行多维评估,包括评估参考文献中的幻觉率、语义覆盖率以及与人类书面语境的事实一致性。通过分析实验结果,我们发现,尽管取得了进步,但即使是最复杂的模型也无法避免产生幻觉参考。此外,不同的模型在不同学科的文献综述写作中表现出不同的表现。
1 引言
2 相关工作
3 方法
4 实验
5 结论
本文提出了一个评估LLM文献综述写作能力的框架。该框架包括三个