发表论文时，该不该引用arXiv上未出版的论文？

最新推荐文章于 2025-06-22 10:08:18 发布

转载最新推荐文章于 2025-06-22 10:08:18 发布 · 1.3w 阅读

6 ·

CC 4.0 BY-SA版权

原文链接：https://yq.aliyun.com/articles/177071

文章标签：

#数据库 #人工智能

针对评审在评选论文时质疑引用arXiv上预印本的现象，作者Zachary C. Lipton认为，只要论文中的成果、思想源自他人，就应该引用，不论是否已正式出版。他指出，不应过分依赖出版过程，而应重视论文中的想法本身。尽管arXiv存在低质量论文的问题，但不应因此拒绝引用合理的预印本。其他专家对此观点表达了不同看法，讨论了科研界引用标准和arXiv的作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

雷锋网 AI科技评论按：7月、8月接二连三的机器学习会议的论文评选中，论文的作者往往会被评委的一个问题激怒——评委在评选论文时，往往会说论文里引用的参考论文只是arXiv上的预印本。究其原因，目前arXiv上论文的水平参差不齐，很多论文都没有得出结果，或者引用别人错误的成果。在这种情况下，到底该不该引用arXiv上只是预印版的论文？

Zachary C. Lipton在Approximately Correct上的一篇文章中发表了对在arXiv上引用论文的看法：该引用时当然要引用。他是加州大学圣地亚哥分校计算机科学与工程系的博士生，即将成为卡内基梅隆大学的助理教授，对理论基础和机器学习的应用感兴趣。他的文章下面，也有很多人对该不该引用arXiv上的论文以及arXiv这个平台进行了讨论。雷锋网(公众号：雷锋网) AI 科技评论将他们的看法进行了整理编辑。

下面是Zachary C. Lipton的观点：

在刚刚过去的机器学习会议的论文提交高峰，许多业内人士对同行评审机制有了印象。一个特别热门的话题是arXiv预印服务。计算机科学家经常在正式发表论文前，将论文发表在arXiv上，以分享他们的想法并扩大影响。

尽管arXiv很受欢迎，许多论文作者还是被评审员的说法所激怒，产生很强烈的不满情绪，因为评审员说他们引用的论文只是arXiv上的预印本。

“真的要引用arXiv上的论文吗?”,他们抱怨到。

“算了吧，这些论文都没有出版！”,他们大声叫嚷。

让他们不满的源头是由于一些很幼稚的人越来越多的使用arXiv（滥用文献）。现在，深度学习的工具已经变得很强大，很容易复制一个repo，在新的数据集上运行它，改动一些超参数，然后就可以开始写论文的草稿了。那些只懂跟风的人会上传一些低质量的论文到 arXiv上，现在那种低质量的论文太多，搞得会议上都像完全充斥着由论文搬运工提交的低质量论文。

尤其令人担忧的是当研究人员预测一个研究领域将会成为热点，他们会先在这个领域占个坑。为了避免被人抢先一步，作者们可能会匆忙地把一份还没有完成研究的论文传到arXiv上，以保住他们的地盘:我们是第一个在X上进行研究的人，所有后续的研究者都得引用我们的论文。

NLP/ML 研究员Yoav Goldberg早前在Medium上发了篇博文，很不客气的批评了这种做法。

他严厉地痛斥了MILA研究小组的一篇论文，该论文中声称他们已经将生成对抗网络的方法运用到语言上。

他谈到论文里产生语言的方法是可笑的，比现在的任何技术都要糟糕得多。他推测他们是想先在那个领域占个坑，这样无论谁先研究出来，都需要引用他们这篇论文，因为他们这个想法在这个领域是开创性的。

在这种混乱的情况下，一些人对引用预印本论文的企业提出了质疑。所以，如果arXiv被滥用得这么严重，还要引用那些只出现在arXiv上的论文吗?

是的，当然。

不管什么时候，当我们知道自己的成果是遵循、复制或借鉴他人的想法时，我们就应该引用之前相关的研究。

有很多影响深远的研究都从未出版过，例如目前最伟大的数学论文。arXiv上的每一篇论文并不是都需要写出参考文献，但很多都会需要。断然地拒绝引用未出版的论文，这种想法有点儿荒谬。我们太过于相信会议组织者和过度工作的审稿专家了，这些审稿专家中大约有30%的人甚至无法理解论文的基本概要。

如果在回顾文献的时候想到了与自己的研究相类似的方法，就应该引用；如果我们明知自己的研究成果是建立在别人的工作之上，我们也应该引用；如果我们把别人分享的一个不太明显的想法发展成一篇论文，也应该提及到；如果有人临死前在餐巾纸上写了一个理论，这个理论开启了对机器学习的新的子领域的科学探索，我们应该把这个人写下的理论发表出来，转换成pdf传到arXiv上，然后再引用它。

当然，无稽之谈肯定不应该引用。许多评审员都在滥用arXiv系统，并荒谬的要求将论文与最近发布的预印本论文进行比较。厚颜无耻的占坑行为不值得奖励。评审不应该指责我们没有将自己的研究与两周前发表的不知道是否有用的算法进行比较。

我们不需要引用arXiv上的论文——这种观点太过于看重科研论文产生的过程，而对论文中想法本身的关注太少了。

对于该不该引用arXiv上的论文，也有更多人分享了他们的精彩观点：

完全同意引用arXiv上的论文……你的观点中的所有来源都应该得到认可！
佩雷尔曼发表了三篇论文证明了几何猜想（Geometrisation Conjecture），这些论文都很有名，但是你只能在arXiv上找到这些论文。你都不需要引用这些文章，因为谈起这些东西时人人都知道。有一条基本原则，我们不能因为论文只是发表在arXiv上就不去引用他们。
不用多说，我并不信任匿名的同行评审机制。我认为所有的评审都应该是公开和公立的。当然，一开始可能会产生一些不必要的讨论和冲突。但是如果评审非常有把握，认为自己在这种顶级会议上接收或拒绝论文是有理可依的，那么你就应该光明正大的承认自己是评审。
学术界的某些部分由赞助/支持网组成。这种网络助长了某些人的事业，维持了一些大机构的运作。但这对科学来说不是一件好事。有时候使用arXiv可能会助长这种不好的风气。

并不是所有人都同意提倡使用arXiv，大家的争论很多。arXiv一方面让人们能更加自由的发表论文和观点，另一方面，也让更多投机者想要先占个坑，趁机吹嘘自己并不成熟的结论。不过，当你的论文中的观点是站得住脚的，并且引用的论文有理可依，那么，该引用时就引用吧！

via：Approximately Correct

雷锋网 AI科技评论编译整理。

本文作者：思颖

本文转自雷锋网禁止二次转载，原文链接