
Transformer
文章平均质量分 79
Transformer在CV方面的应用
ViatorSun
深度学习算法工程师,Github开源世界贡献者,专注于『计算机视觉、多模态大模型』领域
展开
-
【典藏】详解 Self-Attention
Transformer 是 Google 的团队在 2017 年提出的一种 NLP 经典模型,现在比较火热的 Bert 也是基于Transformer。Transformer 模型使用了 Self-Attention机制,不采用RNN顺序结构,使得模型可以并行化训练,而且能够拥有全局信息。一切从 Self-Attention 开始1.1 处理Sequence数据的模型:Transformer是一个Sequence to Sequence model,特别之处在于它大量用到了self-atten.原创 2021-04-07 18:54:13 · 6417 阅读 · 0 评论 -
「解析」Attention机制
Attention函数的本质可以被描述为一个 Query 到 Key-Value对 的映射,这个映射的目的:为了给重要的部分分配更多的概率权重。计算过程主要分为以下三步:通过点乘、加法等其他办法计算 Q:query 和 每个K:key 之间的相似度原创 2023-10-24 10:00:03 · 582 阅读 · 1 评论 -
SEAttention 通道注意力机制
基于通道的注意力机制 源自于 CVPR2018: Squeeze-and-Excitation Networks官方代码:https://github.com/hujie-frank/SENet原创 2022-06-26 18:37:02 · 1834 阅读 · 0 评论 -
「解析」Self-Attention 关键点
Transformer 是 Google 的团队在 2017 年基于 Attention机制 提出的一种 NLP 经典模型,现在比较火热的 Bert 也是基于Transformer。Transformer 模型采用 Self-Attention机制,抛弃了RNN顺序结构,使得模型可以并行化训练,而且能够拥有全局信息。...原创 2022-02-17 23:33:59 · 634 阅读 · 0 评论 -
【解析】BoTNet:Bottleneck Transformers for Visual Recognition
论文:https://arxiv.org/abs/2101.11605代码:https://github.com/mlpc-ucsd/CoaT本文将介绍的是视觉Transformer的新backbone,之前有代表性的Transformer主干网络有:ViT:用Transformer完全替代CNN媲美CNN!Facebook提出DeiT:高效图像Transformer,在ImageNet上达84.4%准确率!现在有非常多的工作就是基于ViT魔改,Amusi 觉得本文分享的BoTNet 应该能助燃.原创 2021-10-24 10:25:27 · 735 阅读 · 0 评论 -
【解析】Token to Token Vision Transformer
介绍Vision Transformer!的提出让我们看到了Transformer模型在图像方向的潜力,但其有一些缺点,如需要超大型数据集(JFT)预训练,才能达到现在CNN的精度。本文分析了ViT的一些不合理之处:直接将图片分块展开成一维向量 不利于对图片结构信息(如边缘,线条)建模冗余的Attention模块限制了特征表达,并带来运算负担基于上述两点,本文提出Tokens to Token Transformer,采用类似CNN中卷积划窗的方式,将相邻的tokens局部聚合起来,有助于建模局原创 2021-04-24 21:45:29 · 4506 阅读 · 0 评论 -
【解析】DeLighT:深度和轻量化的Transformer(ICLR 2021)
Paper:DeLighT: Deep and Light-weight TransformerDemo:https://github.com/ sacmehta/delight基于注意力的Transformer网络被广泛用于序列建模任务,包括语言建模和机器翻译。为了提高性能,模型通常通过增加隐藏层的维度来扩展,或者通过堆叠更多的Transformer块来扩展。例如,T5使用65K的隐藏层参数,GPT-3使用96个Transformer块。然而,这样的缩放显著增加了网络参数的数量(例如,T5和GPT.原创 2021-04-22 22:19:39 · 2507 阅读 · 0 评论 -
「解析」Vision Transformer 在图像分类中的应用
An Image is Worth 16x16 Words:Transformers for Image Recognition at Scale代码:1、ViT原理分析:这个工作本着尽可能少修改的原则,将原版的Transformer开箱即用地迁移到分类任务上面。并且作者认为没有必要总是依赖于CNN,只用Transformer也能够在分类任务中表现很好,尤其是在使用大规模训练集的时候。同时,在大规模数据集上预训练好的模型,在迁移到中等数据集或小数据集的分类任务上以后,也能取得比CNN更优的性能。下面原创 2021-08-30 14:17:19 · 11284 阅读 · 16 评论 -
【详解】Transformer 的框架结构
Figure1是一个seq2seq的model,左侧为 Encoder block,右侧为 Decoder block。红色圈中的部分为Multi-Head Attention,是由多个Self-Attention组成的,可以看到 Encoder block 包含一个 Multi-Head Attention,而 Decoder block 包含两个 Multi-Head Attention (其中有一个用到Masked)。Multi-Head Attention 上方还包括一原创 2021-04-08 14:55:00 · 1393 阅读 · 0 评论