斯坦福最新研究:ChatGPT除了写论文,竟有17%的同行评审也是AI生成

研究人员发现ChatGPT被用于学术论文同行评审,特别是在顶级AI会议中,占比高达17%。审稿人利用AI来提高效率,但期刊出版政策因隐私和伦理问题禁止AI参与。文章详细探讨了AI痕迹识别方法,如形容词使用变化、截止日期影响等。未来学术界将面临如何规范AI使用的挑战。

我是娜姐 @迪娜学姐 ,一个SCI医学期刊编辑,探索用AI工具提效论文写作和发表。

图片

ChatGPT占领学术论文写作之后,斯坦福大学和加州大学的研究人员又发现,很多审稿人也在用AI生成同行评审意见。在2023-2024年顶级AI会议的同行评审中,有高达17%的内容是由ChatGPT等模型生成的。AI正在加速“入侵”学术界。          

图片


有吃瓜网友评论说,这个数字可能是50%。

图片

目前,根据各大期刊和出版社的政策,是不允许审稿人用AI进行同行评审的。原因在于,数据隐私和伦理的考虑,偏见和公允,以及可能会出现错判和误判等等。  

但是,架不住人类的好奇心和爱偷懒的天性,还是有不少审稿人偷偷用AI来帮助自己审论文,给出评审意见。    

斯坦福研究团队这次调查的AI会议论文包括ICLR 2024、NeurIPS 2023、CoRL 2023和EMNLP 2023这四个,调查的结果发表在arxiv上↓。

图片


他们是如何发现AI参与同行评审的蛛丝马迹呢?具体来讲,AI参与peer review主要有以下几个证据:
 

1 同行评审中形容词频率的变化:

图片

论文发现,在ICLR 2024的同行评审中,某些词语(如“commendable值得称赞的”、“meticulous细致的”和“intricate复杂的”)的使用频率发生了显著变化,表明在ChatGPT发布后,这些词语可能被更频繁地用于评审中。


2 截止日期效应:

图片

论文发现,在截止日期3天内提交的评审中估计的α值有小幅但持续的增加。表明随着截止日期的临近,审稿人可能更依赖LLM来节省时间。


3 参考文献效应:   

图片

结果显示,包含“et al.”的评审意见(即有参考文献引用)相比没有“et al.”的,更有可能是人类评审专家完成而不是ChatGPT。因为众所周知,ChatGPT在给出参考文献时,会编造不存在的文献。


4 复审次数相关性:

图片

论文发现,审稿人回复作者的回复次数与估计的ChatGPT使用率(α)之间存在负相关。意思是,如果审稿人和作者来回讨论,复审次数越多,越不可能是ChatGPT生成评审意见。

总之,论文提出了一种新的计算方法来估计大型文本语料库中由AI生成的文本比例。通过应用这种方法,作者发现在ChatGPT发布后,AI会议评审文本中有很明显是被LLM修改或生成的部分,主要证据包括特定形容词词频使用

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值