ViT论文阅读

这篇博客探讨了ViT(Vision Transformer)如何将2D图像转换为1D序列,并指出其在中小型数据集上相对于ResNet的表现劣势。ViT缺乏卷积神经网络的局部性和平移等变性归纳偏置,这导致它在某些任务上表现不足。尽管如此,Transformer模型的独特结构为图像处理带来了新的视角和潜力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

ViT解决的第一个问题就是是如何把2D的图像用1D序列形式表现出来,

其次ViT模型在中小型数据集(如ImageNet)上的效果对比ResNet是比较弱的,这是因Transformer和卷积神经网络相比,缺少了一些卷积神经网络拥有的归纳偏置的先验知识。

对于卷积神经网络来说,常说的有两个inductive bias(归纳偏置):

locality:因为卷积神经网络是以滑动窗口的形式一点一点地在图片上进行卷积的,所以假设图片上相邻的区域会有相邻的特征,靠得越近的东西相关性越强
translation equivariance(平移等变性或平移同变性):f(g(x))=g(f(x)),就是说不论是先做 g 这个函数,还是先做 f 这个函数,最后的结果是不变的。这里可以把f理解成卷积,把g理解成平移操作,意思是说无论是先做平移还是先做卷积,最后的结果都是一样的(因为在卷积神经网络中,卷积核就相当于是一个模板,不论图片中同样的物体移动到哪里,只要是同样的输入进来,然后遇到同样的卷积核,那么输出永远是一样的)

### Vision Transformer (ViT) 论文下载与阅读指南 Vision Transformer (ViT) 是一种基于Transformer架构的图像识别方法,其核心思想是将图像分割成多个固定大小的patches,并将其作为输入序列送入Transformer模型中处理。以下是关于ViT论文的相关信息及其下载链接。 #### 论文基本信息 - **论文标题**: An Image Is Worth 16x16 Words: Transformers For Image Recognition At Scale - **作者团队**: Google Research - **发表时间**: 2020年10月 该论文首次提出了如何通过大规模数据预训练使Transformer在图像分类任务上达到甚至超过卷积神经网络(CNN)的效果[^2]。 #### 下载地址 可以通过以下链接直接访问并下载原始论文: - [An Image Is Worth 16x16 Words: Transformers For Image Recognition At Scale](https://arxiv.org/abs/2010.11929) #### 模型特点概述 1. **Patch Embedding**: 图像被划分为若干个非重叠的小块(patch),每个patch经过线性变换映射到固定的向量表示形式。 2. **Positional Encoding**: 虽然可以采用多种位置编码方式(如1D或2D)[^4],但实验证明具体的选择对于最终性能影响较小。 3. **Self-Attention Mechanism**: 利用多头自注意力机制捕获全局特征依赖关系,在较大规模数据集下展现出优于传统CNN结构的能力[^3]。 #### 实验结果分析 通过对不同尺寸的数据集进行对比测试发现,随着训练样本数量增加,Vision Transformer逐渐显现出相对于其他先进方法(BiT、VIVI等)的优势地位。这表明当拥有充足标注资源时,Vision Transformer能够更好地挖掘潜在模式从而实现更优表现。 ```python import torch from vit_pytorch import ViT model = ViT( image_size=256, patch_size=32, num_classes=1000, dim=1024, depth=6, heads=8, mlp_dim=2048, dropout=0.1, emb_dropout=0.1 ) print(model) ``` 上述代码片段展示了如何利用PyTorch框架快速搭建一个基础版本的Vision Transformer实例化对象。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值