27、大语言模型的高级应用:ViT与DETR实战解析

大语言模型的高级应用:ViT与DETR实战解析

1. 基于视觉Transformer的图像分类

视觉Transformer(ViT)通过引入一种巧妙的图像处理技术,证明了注意力机制的适应性。传统上,使用Transformer处理图像输入的一种方法是用四个变量对每个像素进行编码:像素强度、行、列和通道位置。每个像素编码作为一个简单神经网络(NN)的输入,该网络输出一个 $d_{model}$ 维的嵌入向量。这样,三维图像就可以表示为这些嵌入向量的一维序列,就像词元嵌入序列作为模型输入一样,每个像素在注意力块中会关注其他所有像素。

然而,这种方法存在一些与输入序列长度(上下文窗口)相关的缺点。与一维文本序列不同,图像具有二维结构(颜色通道不会增加像素数量)。因此,随着图像尺寸的增加,输入序列长度会呈二次方增长。即使是一个小的64×64图像,也会导致长度为64 * 64 = 4,096的输入序列。这一方面使模型计算量巨大,另一方面,由于每个像素都要关注整个长序列,模型很难学习到图像的结构。而卷积神经网络(CNNs)通过使用滤波器来解决这个问题,滤波器将单元的输入大小限制在其紧邻的周围区域(感受野)。

ViT解决这个问题的方法是将图像分割成二维方形块的序列。设输入图像的分辨率为 (H, W),通道数为C,则输入图像可以表示为一个张量 $x \in \mathbb{R}^{H×W×C}$。ViT将图像分割成一系列二维方形块 $x_p \in \mathbb{R}^{N×P^2×C}$,其中 (P, P) 是每个图像块的分辨率(通常P = 16),$N = (H × W) / P^2$ 是块的数量(也是输入序列的长度)。这些块序列作为模型的输入,就像词元序列一样。

接下来

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值