27、大语言模型在图像分类与目标检测中的高级应用

ViT与DETR的高级应用解析

大语言模型在图像分类与目标检测中的高级应用

1. 基于视觉Transformer的图像分类

1.1 传统方法的局限性

在使用Transformer处理图像输入时,一种方法是用四个变量(像素强度、行、列和通道位置)对每个像素进行编码,将其输入到一个简单的神经网络中,输出一个模型维度的嵌入向量,把三维图像表示为这些嵌入向量的一维序列。但这种方法存在输入序列长度的问题,图像是二维结构,输入序列长度会随图像尺寸增大而二次增长,导致模型计算量大,且难以学习图像结构。而卷积神经网络(CNNs)通过使用滤波器限制单元的输入大小,解决了这一问题。

1.2 Vision Transformer(ViT)的工作原理

ViT将输入图像分割成二维正方形补丁序列。设输入图像分辨率为 (H, W),通道数为C,可表示为张量 (x \in \mathbb{R}^{H×W×C})。ViT将其分割为 (x_p \in \mathbb{R}^{N×P^2×C}) 的补丁序列,其中 (P, P) 是每个图像补丁的分辨率(P = 16),(N = (H × W) / P^2) 是补丁数量,也是输入序列长度。

输入补丁 (x_p) 经过线性投影,为每个补丁输出一个模型维度的补丁嵌入向量,形成输入序列 (z_0),公式如下:
(z_0 = [x_{cls}; x_p^{(1)}E; x_p^{(2)}E; … x_p^{(N)}E] + E_{pos})
其中,(E \in \mathbb{R}^{(P^2⋅C)×d_{model}}) 是线性投影,(E_{pos} \in \mathbb{R}^{(N + 1)×d_{model}}) 是静态位置编码。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值