本文是LLM系列文章,针对《Can large language models provide useful feedback on research papers? A large-scale empirical analysis.》的翻译。
摘要
专家反馈是严谨研究的基础。然而,学术生产的快速增长和复杂的知识专业化挑战了传统的科学反馈机制。越来越难以获得高质量的同行评审。资历较浅或资源不足的研究人员尤其难以及时获得反馈。随着GPT-4等大型语言模型(LLM)的突破,人们对使用LLM生成研究手稿的科学反馈越来越感兴趣。然而,LLM生成的反馈的效用尚未得到系统的研究。为了解决这一差距,我们使用GPT-4创建了一个自动管道,以提供对科学论文完整PDF的评论。我们通过两项大规模研究评估了GPT-4反馈的质量。我们首先在15份Nature家族期刊(共3096篇论文)和ICLR机器学习会议(1709篇论文)中定量比较了GPT-4生成的反馈与人类同行评审员的反馈。GPT-4和人类审稿人提出的观点的重叠(《自然》杂志的平均重叠30.85%,《ICLR》的平均重叠39.23%)与两位人类审稿人之间的重叠相当(《自然杂志》期刊的平均重叠28.58%,《ICRR》的平均交叠35.25%)。对于较弱的论文(即被拒绝的ICLR论文;平均重叠43.80%),GPT-4和人类审稿人之间的重叠