我是娜姐 @迪娜学姐 ,一个SCI医学期刊编辑,探索用AI工具提效论文写作和发表。

继ChatGPT占领学术论文写作之后,斯坦福大学和加州大学的研究人员又发现,很多审稿人也在用AI生成同行评审意见。在2023-2024年顶级AI会议的同行评审中,有高达17%的内容是由ChatGPT等模型生成的。AI正在加速“入侵”学术界。

有吃瓜网友评论说,这个数字可能是50%。

目前,根据各大期刊和出版社的政策,是不允许审稿人用AI进行同行评审的。原因在于,数据隐私和伦理的考虑,偏见和公允,以及可能会出现错判和误判等等。
但是,架不住人类的好奇心和爱偷懒的天性,还是有不少审稿人偷偷用AI来帮助自己审论文,给出评审意见。
斯坦福研究团队这次调查的AI会议论文包括ICLR 2024、NeurIPS 2023、CoRL 2023和EMNLP 2023这四个,调查的结果发表在arxiv上↓。

他们是如何发现AI参与同行评审的蛛丝马迹呢?具体来讲,AI参与peer review主要有以下几个证据:
1 同行评审中形容词频率的变化:

论文发现,在ICLR 2024的同行评审中,某些词语(如“commendable值得称赞的”、“meticulous细致的”和“intricate复杂的”)的使用频率发生了显著变化,表明在ChatGPT发布后,这些词语可能被更频繁地用于评审中。
2 截止日期效应:

论文发现,在截止日期3天内提交的评审中估计的α值有小幅但持续的增加。表明随着截止日期的临近,审稿人可能更依赖LLM来节省时间。
3 参考文献效应:

结果显示,包含“et al.”的评审意见(即有参考文献引用)相比没有“et al.”的,更有可能是人类评审专家完成而不是ChatGPT。因为众所周知,ChatGPT在给出参考文献时,会编造不存在的文献。
4 复审次数相关性:

论文发现,审稿人回复作者的回复次数与估计的ChatGPT使用率(α)之间存在负相关。意思是,如果审稿人和作者来回讨论,复审次数越多,越不可能是ChatGPT生成评审意见。
总之,论文提出了一种新的计算方法来估计大型文本语料库中由AI生成的文本比例。通过应用这种方法,作者发现在ChatGPT发布后,AI会议评审文本中有很明显是被LLM修改或生成的部分,主要证据包括特定形容词词频使用

研究人员发现ChatGPT被用于学术论文同行评审,特别是在顶级AI会议中,占比高达17%。审稿人利用AI来提高效率,但期刊出版政策因隐私和伦理问题禁止AI参与。文章详细探讨了AI痕迹识别方法,如形容词使用变化、截止日期影响等。未来学术界将面临如何规范AI使用的挑战。
最低0.47元/天 解锁文章
150

被折叠的 条评论
为什么被折叠?



