如何在arXiv上发表一篇文章

本文介绍了如何在arXiv上发表预印本论文,包括账号注册、文章撰写、正式提交的步骤。文章指出arXiv是一个预印本平台,允许科研人员快速分享研究成果,但其内容未经同行评审。使用LaTeX编写论文并将其转换为符合arXiv要求的格式,然后通过arXiv网站提交并填写元数据,经过审核后即可发布。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

点击上方“计算机视觉工坊”,选择“星标”

干货第一时间送达

前言:

对于科研新人来说,有时候有一些好的想法不能第一时间通过正式的论文发表出来,便可以借助arXiv这个平台发表。这篇文章将简单介绍arXiv,并详细介绍如何在arXiv提交一篇论文。

关于arXiv的常见问题:

(这部分问题是作者参考arXiv官网,和相关资料,总结而成。可能会有错误,仅供参考。如有错误,欢迎指出)

1. arXiv怎么发音?

arXiv读音与”archive”([‘ɑːkaɪv],档案馆)相同,其中的X表示希腊字母的 (chi)。

2. arXiv是什么?

是一个收集物理学、数学、计算机科学、生物学与数理经济学的论文预印本的网站。1991年创建,现由康奈尔大学维护。

3. 什么是“预印本”?

通常指未公开发表的,出于同行交流的目的而在互联网上发布的学术文献。可以是完全没有投稿的论文,也可以是投稿了但并未采用(正在评审等环节、或已经拒稿)的论文,或者是已经被录用但并未公开的论文。

4. “预印本”论文的质量如何?是否会有造假?

预印本的论文不需要经过任何同行评议,(几乎是)任何人都可以发表出来,所以预印本的质量完全没有保证。所以在阅读预印本的论文时,一定要抱着怀疑的态度(虽然阅读正式发表的论文也需要有这种批判思维)。

5. 论文正在会议/期刊审稿中,可以挂到arXiv么?

这个问题需要看会议/期刊是否有要求。有些会议会/期刊明确,允许预印本的存在,或者不允许预印本。如果没有明说,建议询问主编。另外,如果审稿过程是盲审,挂在arXiv或任何其他网站,能够暗示这篇工作是你做的,这严格来讲是不合适的。

6. 先挂到arXiv上的论文,可以继续投其他正式会议/期刊么?

同上。

<think>好的,我现在需要帮用户找到第一篇提出Vision Transformer(ViT)的文章以便引用。用户之前讨论过长尾分布的论文,但现在的需求是关于ViT的首篇论文,这可能与计算机视觉或图像分类相关。 首先,我要确定用户的具体需求。他们明确提到“第一篇提出Vision Transformer的文章”,所以需要确认ViT的原创论文。可能的关键词包括“Vision Transformer”、“ViT”、“图像分类”、“Transformer在视觉的应用”等。 接下来,回忆相关领域的重要论文。Transformer模型最初由Vaswani等人在2017年提出,应用于NLP。在计算机视觉中,将Transformer用于图像处理的首批工作中,ViT应该是一个里程碑。根据已有的知识,ViT是由Alexey Dosovitskiy等人在2021年发表论文《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》中提出的,发表于ICLR 2021。这篇论文确实被认为是首次成功将纯Transformer架构应用于图像分类任务,并且展示了在大规模数据集上训练时,ViT可以超越传统的CNN模型。 用户提供的站内引用中,引用[1]和[2]是关于机器翻译的,可能与当前问题关联不大,但需要检查是否有其他相关引用。不过根据用户的最新问题,这些引用可能不适用,所以应主要依赖自己的知识库。 确认论文的详细信息:标题、作者、会议、年份、arXiv编号等。ViT的arXiv版本发布于2020年10月,正式会议是ICLR 2021。作者包括Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby。 需要验证是否有更早的论文提出类似概念。例如,之前可能有工作将Transformer用于图像,但ViT是首个完全依赖Transformer并在大规模数据上表现优异的。例如,iGPT(OpenAI)可能早于ViT,但iGPT是基于生成模型的,而ViT是用于分类的,且结构不同。因此ViT仍被认为是开创性的。 用户可能需要正确的引用格式,所以需要提供完整的参考文献条目,包括arXiv链接。此外,用户可能需要知道后续的重要工作,如DeiT(Data-efficient Image Transformer),但用户主要询问的是第一篇,因此重点放在ViT上。 总结回答结构:首先明确回答论文信息,然后简要介绍贡献,最后提供引用格式和相关问题。需要确保引用标识正确,如[^1]对应ViT论文,并生成相关问题帮助用户进一步探索。</think>--- ### 首篇提出Vision Transformer的论文 **《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》**(ICLR 2021)是首次系统地将纯Transformer架构应用于图像分类的开创性工作。 - **核心贡献**: 1. 提出将图像分割为固定大小的块(例如$16 \times 16$像素),并将这些块线性嵌入为序列输入Transformer。 2. 证明当训练数据量足够大(如JFT-300M)时,Vision Transformer(ViT)在ImageNet等基准数据集上超越传统CNN模型(如ResNet)。 3. 分析了Transformer在视觉任务中的可扩展性与注意力机制的有效性。 - **引用格式**: ``` @article{dosovitskiy2021image, title={An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale}, author={Dosovitskiy, Alexey and Beyer, Lucas and Kolesnikov, Alexander and Weissenborn, Dirk and Zhai, Xiaohua and Unterthiner, Thomas and Dehghani, Mostafa and Minderer, Matthias and Heigold, Georg and Gelly, Sylvain and Uszkoreit, Jakob and Houlsby, Neil}, journal={ICLR}, year={2021} } ``` **arXiv预印本链接**: [arXiv:2010.11929](https://arxiv.org/abs/2010.11929) --- ### 相关拓展工作 - **DeiT**(《Training data-efficient image transformers & distillation through attention》, ICML 2021)通过知识蒸馏策略,显著减少ViT对大规模预训练数据的依赖[^2]。 - **Swin Transformer**(《Swin Transformer: Hierarchical Vision Transformer using Shifted Windows》, ICCV 2021)引入层级结构和局部窗口注意力,提升ViT在密集预测任务(如检测、分割)中的性能[^3]。 ---
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值