【视觉Transformer】(Vision Transformer, ViT) 是一种革命性的技术,它将Transformer架构应用于视觉识别任务,通过自注意力机制来捕捉图像中的特征关系,显著增强了模型对视觉信息的解析力。这一领域的研究不仅打破了传统卷积神经网络(CNN)在特征提取方面的限制,还为计算机视觉带来了全新的模型设计和更强的表征能力,从而在图像分类、目标检测、语义分割等多个领域实现了性能的飞跃。 此外,视觉Transformer的研究深化了我们对深度学习中注意力机制的理解,并激发了模型设计的创新,如通过局部注意力机制降低计算成本,或通过结构性重参数化提高效率。视觉Transformer的进展为处理跨模态任务和大规模视觉识别挑战提供了新的工具,推动了人工智能在视觉识别领域的快速发展。
三篇论文解析
1、Super Vision Transformer: Revisiting Activation Sparsity for Efficient High-Resolution Vision Transformer
方法
- SuperViT (Super Vision Transformer): 提出了一种新的训练范式,通过训练一个能够处理不同尺寸输入图像并且能够在多种计算成本下提供改进图像识别性能的ViT模型。
- 多尺寸补丁分割: 将输入图像复制到多个并行分支中,每个分支负责特定尺寸的局部补丁分割,以注入不同尺寸补丁的信息。
- 多令牌保持率: 在训练过程中考虑多种令牌保持率,以挖掘图像中的冗余区域并减少计算成本。
- 硬件效率: SuperViT能够在不同硬件资源条件下动态适应,通过调整输入图像的补丁大小和令牌保持率来实现快速的准确性-效率权衡。
- 训练目标: 使用交叉熵损失和Kullback-Leibler散度来训练SuperViT,以处理不同尺寸的补丁和不同的令牌保持率。
创新点
- 激活稀疏性的重新审视: 提出了一种新的训练范式,使得一个ViT模型能够在保持高分辨率信息的同时,根据当前可用的硬件资源动态调整其复杂性。
- 多尺寸和多保持率的训练: 通过在训练过程中考虑多种补丁尺寸和令牌保持率,SuperViT能够在测试阶段适应不同的计算成本,从而提高性能。
- 硬件效率的优化: SuperViT能够在各种硬件平台上实现高效的部署,甚至在相同工作站上的硬件资源(如电池条件或工作负载)发生变化时,也能够通过简单地调整输入图像的补丁大小和令牌保持率来实现即时和自适应的准确性-效率权衡。
- 提高ViT模型的计算效率: 通过减少令牌数量和在训练过程中注入多尺寸补丁的信息,SuperViT在减少计算成本的同时,甚至能够提高模型的性能。
- 一种新的训练目标: 通过结合交叉熵损失和Kullback-Leibler散度,SuperViT能够在训练过程中同时考虑不同尺寸的补丁和不同的令牌保持率,从而实现更好的性能。
IMG_256
2、Vicinity Vision Transformer
方法
Vicinity Vision Transformer (VVT) 是一种新型的视觉Transformer骨干网络,它通过以下方法来提高视觉任务的性能和计算效率:
- Vicinity Attention:提出了一种新型的线性注意力机制,称为Vicinity Attention,它通过2D曼哈顿距离来调整图像块之间的注意力权重,从而使相邻的图像块获得更强的注意力。
- Feature Reduction Attention (FRA):为了解决线性注意力在特征维度上的二次方计算复杂度问题,提出了FRA,它通过减少输入特征维度来降低计算复杂度。
- Feature Preserving Connection (FPC):为了弥补FRA可能带来的特征信息损失,引入了FPC,它通过额外的跳跃连接来保留原始特征分布,增强特征提取能力。
- 金字塔结构:VVT采用金字塔结构,从高分辨率的图像块开始,逐步缩小尺寸以适应不同视觉任务的多尺度输出需求。
创新点
- 2D局部性引入:VVT首次在视觉Transformer的线性自注意力中引入了2D局部性偏置,这有助于模型更好地理解和处理图像中的局部特征。
- 线性复杂度的自注意力:通过Vicinity Attention,VVT实现了线性复杂度的自注意力计算,这使得模型能够处理更高分辨率的图像,同时保持计算效率。
- Vicinity Attention Block:提出了一种新的注意力结构,即Vicinity Attention Block,它结合了FRA和FPC,不仅减少了计算量,还保持了模型的准确性。
- 多尺度特征输出:VVT的金字塔结构能够生成不同尺度的特征图,这使得它能够适应各种视觉任务,如图像分类和语义分割。
- 参数和计算效率:在保持或提高性能的同时,VVT在参数数量和计算量上都比现有的Transformer和卷积网络更高效,尤其是在处理高分辨率输入时。

3、WetMapFormer: A unified deep CNN and vision transformer for complex wetland mapping
方法
WetMapFormer 是一种结合了深度卷积神经网络(CNN)和视觉变换器(ViT)的深度学习算法,用于精确映射复杂湿地。具体方法包括:
- 特征提取器:使用3D和2D卷积操作来提取光学和SAR数据的特征。
- 深度可分离卷积块:采用轻量级的CNN架构,通过并行的深度可分离卷积来提取多尺度特征。
- 局部窗口注意力(Local Window Attention, LWA):代替传统的自注意力机制,通过限制每个查询令牌的感受野到其邻域区域,以提高局部特征泛化能力,同时显著降低计算成本。
- 编码器-解码器架构:采用编码器-解码器网络来进一步提取和细化特征。
- 前馈网络(Feed-Forward Network, FFN):使用密集层对特征进行进一步的处理,以生成类别概率。
创新点
- CNN与ViT的融合:提出了一种新的深度学习框架,有效结合了CNN和视觉变换器架构,以提高湿地分类的准确性。
- 局部窗口注意力(LWA):开发了一种新的注意力机制,与常规的自注意力相比,能够减少计算成本,同时保持特征提取的有效性。
- 计算效率:与原始ViT相比,WetMapFormer通过LWA显著降低了计算成本,使得模型更适合于大规模湿地制图。
- 特征提取的改进:通过3D和2D卷积的结合,以及深度可分离卷积的使用,提高了特征提取的能力,尤其是在处理光学和SAR数据时。
- 数据集和实验验证:在加拿大新不伦瑞克省的三个试点地区使用Sentinel-1和Sentinel-2卫星数据进行了广泛的实验验证,并与多种CNN和视觉变换器模型进行了比较,证明了WetMapFormer的有效性。

如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】
视觉Transformer论文解析及大模型AI学习路径
163

被折叠的 条评论
为什么被折叠?



