顶流Mamba竟遭ICLR拒稿,学者集体破防变,LeCun都看不下去了

ICLR拒稿结果让AI研究者不满,如Transformer架构挑战者Mamba论文,四位审稿人打出8/8/6/3分数仍被拒,引发对评审流程的质疑。有研究者认为评审过程有缺陷,投稿接不接受很随机。此外,还提到了新生代会议CoLM,它专注语言模型领域,将采用双盲审核。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

梦晨 西风 发自 凹非寺
量子位 | 公众号 QbitAI

一项ICLR拒稿结果让AI研究者集体破防,纷纷刷起小丑符号b9471eed560aade976339777092b1ba4.png

争议论文为Transformer架构挑战者Mamba,开创了大模型的一个新流派。发布两个月不到,后续研究MoE版本、多模态版本等都已跟上。‍‍

但面对ICRL给出的结果,康奈尔副教授Alexander Rush都表示看不懂怎么回事了,“如果这都被拒了,那我们小丑们还有什么机会”。‍

7102128374e8f29cd0f554e0572aa550.png

在评论区和转发区,不少研究者带上小丑面具前来报道。

34c5fb9dc3d3caf4788cd9c01ecbaa5f.png
64971d148f1acd0bba4ea63f79d19ea8.png

具体来说,四位审稿人打出8/8/6/3的分数,这样被拒很多人就已经觉得不正常。

其中一位审稿人提的问题是“有没有训练更大的模型,和10b参数的Transformer比较如何?”

对此,有人表示已经开始向审稿人提及实验成本了。

审稿人可能不知道他们要求的实验会花费50000美元

53c7cb20b7fda046672b75ddd872b1d3.png

ICLR会议创办的初衷正是优化同行评审过程,LeCun作为会议创始人之一,也表达了不满:

很遗憾,历届程序委员会主席慢慢把它变成了一个与传统评审流程差不多的会议。

只有一些小胜利:OpenReview平台现在被大多数ML/AI会议使用,以及论文提交后立刻就能被所有人阅读(尽管匿名)。

d3230f2ae999418e7f2847a3d41d69d3.png

LeCun还举例自己也有一篇从未被接受、ArXiv独占的论文,现在被引用次数已超过1880次。

9400c514981721c6c192f777ebe8797c.png

也有研究者认为,这次很多高分被接受论文与Mamba比起来充其量只能算增量研究,更令人遗憾了。

a3c93b9358dceb39a18e00addd7836a2.png

这届ICLR混乱重重

先来借用给6分审稿人的意见,简单介绍一下Mamba论文的主要贡献。

  • 提出了基于SSM状态空间模型的新架构,可实现Transformer质量的性能,同时线性缩放序列长度。

  • 提出了一种硬件感知算法,通过扫描而不是卷积来循环计算模型,避免具体化扩展状态以减少内存使用。

  • 将先前的深度序列模型架构简化为同构架构,具有快速推理、线性缩放和改进的长序列性能。

  • 在多种模态(语言、音频和基因组学)上都取得SOTA性能,成为跨模态通用序列模型主干的有力候选者

f0a96bdaebfb43644354cd82f0293052.png

但这位审稿人提出的二次内存需求问题,不少熟悉这篇论文的人都表示不认可。

d030654bb32934e3b9f09fcf5f0f7edf.png

060263f4aa9a4aef24d7a5b9685256b7.png

对此,作者也在Rebuttal中给出了解释,内存需求实际上是随序列长度线性增长的。

0ac077e65a49f8a00ff1ea432f9a6d12.png

另外一位打3分的审稿人,还被吃瓜群众指出可能根本不熟悉什么是RNN。

0b46becbc5754818269c38cfd24dd38b.png

作者针对这位审稿人的Rebuttal太长,足足分了4条才发完。

9c896ac72cd97c8f635b9bcf3fe146cb.gif

然鹅,这位对自己评分给出5级置信度的审稿人,根本没有回复

b6ffeba98d04a867172756b967a3ba02.png

这就让人更担心会不会影响领域主席的判断了。

1b8fb36e9afcd544b9e0cd638850bf22.png

正如这位研究者所说,这届ICLR出现的争议还不止一例。

8/8/6/3如果被拒还算事出有因,知乎相关讨论上还有得分8/8/8被AC拒,就更离谱了。

ff4ee5ea1b7c86b19412f1ad9cb14c18.png

还有作者和审稿人吵起来,以至于要讨论礼貌问题的。

208ffe4eefd446bbd68dc18b8610b30f.png

投稿接不接收全靠随机?

这也引发了网友们对整体学术评审现状的讨论。其中一个主要讨论点是评审过程有缺陷“接不接受真的很随机,和论文本身的质量关系不大”:

c77249476c55e866db600b4ce98ce47a.png

网友也是缓缓打出一个问号:

既然评审流程存在问题,那解决方案是什么?就靠运气?

061e0455232e975a6f23e64febba4e08.png

对此,康奈尔副教授Alexander Rush甚至还提出了这样的建议(手动狗头):

如果你读博已经读到了第六年的那种,应该提交两篇糟糕的论文,而不是一篇好的。

90cef42104480c1d0f6e0baf50d77f59.png

不只一位学者分享了类似的建议:

我的教授曾说,论文被接受的过程就像掷一个四面骰子,如果这次运气不好,就再掷一次……

5210461af29a98d98d72aba8969265ef.png

当然,也有人抱有不同的观点,认为会议作为一种认可,已出名的作品其实已经不需要了,可以给其他未被发掘的论文更多机会,所以已经出名的论文被学术会议拒绝也是完全可以接受的。

749a9eaf2b297497e924bc51a1b3476b.png

值得一提的是,还有不少人建议大家转投新生代会议CoLM,Alexander Rush自己也参与了这个会议的创办:

0f367f4bca729e0af1e9c3aa773f9e95.png

而大家提到的CoLM会议,全称Conference On Language Modeling,专注于语言模型领域。CoLM刚创立不久,第一届大会将在今年10月份举办。

其中七位组织者均是来自业界学界的大佬,其中有三位是华人学者谷歌周登勇、普林斯顿陈丹琦、Meta的Angela Fan。

f20bc393adb1d0a16c42667e078c18fb.png

与ICLR类似,COLM将采用双盲审核,并使用OpenReview管理投稿。

会议征稿主题包括但不限于语言建模及大模型语境下的对齐、数据、评估、社会影响、安全、科学、高效计算、工程、学习和推理算法等17个方向。

据说,COLM还是在ACL 2024主席公开抨击称“arXiv是科研的毒瘤”而后引发争论的背景下,催生出来的。

397b390581ba8912e2d78de623657e91.png

参考链接:
[1]https://twitter.com/srush_nlp/status/1750526956452577486
[2]https://x.com/ylecun/status/1750594387141369891
[3]https://openreview.net/forum?id=AL1fq05o7H

—  —

点这里👇关注我,记得标星哦~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值