本文是LLM系列文章,针对《Can large language models provide useful feedback on research papers? A large-scale empirical analysis.》的翻译。
摘要
专家反馈是严谨研究的基础。然而,学术生产的快速增长和复杂的知识专业化挑战了传统的科学反馈机制。越来越难以获得高质量的同行评审。资历较浅或资源不足的研究人员尤其难以及时获得反馈。随着GPT-4等大型语言模型(LLM)的突破,人们对使用LLM生成研究手稿的科学反馈越来越感兴趣。然而,LLM生成的反馈的效用尚未得到系统的研究。为了解决这一差距,我们使用GPT-4创建了一个自动管道,以提供对科学论文完整PDF的评论。我们通过两项大规模研究评估了GPT-4反馈的质量。我们首先在15份Nature家族期刊(共3096篇论文)和ICLR机器学习会议(1709篇论文)中定量比较了GPT-4生成的反馈与人类同行评审员的反馈。GPT-4和人类审稿人提出的观点的重叠(《自然》杂志的平均重叠30.85%,《ICLR》的平均重叠39.23%)与两位人类审稿人之间的重叠相当(《自然杂志》期刊的平均重叠28.58%,《ICRR》的平均交叠35.25%)。对于较弱的论文(即被拒绝的ICLR论文;平均重叠43.80%),GPT-4和人类审稿人之间的重叠更大。然后,我们与来自110个美国机构的308名人工智能和计算生物学领域的研究人员进行了一项前瞻性用户研究,以了解研究人员如何感知我们的GPT-4系统在他们自己的论文上产生的反馈。总体而言,超过一半(57.4%)的用户认为GPT-4生成的反馈很有帮助,82.4%的用户认为它比至少一些人类评审员的反馈更有益。虽然我们的研究结果表明LLM生成的反馈可以帮助研究人员,但我们也发现了一些局限性。例如,GPT-4倾向于关注科学反馈的某些方面(例如,“在更多数据集上添加实验”),并且经常难以对方法设计提供深入的批评。我们的研究结果表明,LLM和人类反馈可以相辅相成。虽然人类专家评审是并应该
本文研究了大型语言模型(如GPT-4)是否能为科研论文提供有用的反馈。通过对Nature期刊和ICLR会议论文的大量分析,发现GPT-4生成的反馈与人类同行评审的重叠度较高,且多数研究员认为这种反馈有益。然而,LLM在提供深入的方法设计批评方面存在局限性,它们与人类专家评审相辅相成。
已下架不支持订阅
1776

被折叠的 条评论
为什么被折叠?



