transformer

最新推荐文章于 2025-11-06 14:37:00 发布

原创最新推荐文章于 2025-11-06 14:37:00 发布 · 4.3k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#transformer #深度学习

CV tasks 同时被 2 个专栏收录

68 篇文章

订阅专栏

Popular Opts

15 篇文章

订阅专栏

Transformer模型由Google在2017年提出，最初用于机器翻译，其创新的注意力机制颠覆了传统的RNN和CNN。随着DETR和VIT的出现，Transformer逐步在目标检测和图像分类等计算机视觉任务中取得突破，成为CV领域的研究热点。Transformer由Encoder和Decoder组成，核心组件包括Multi-Head Attention、Self-Attention和Positional Encoding，解决序列信息处理的并行性和位置信息保留问题。

部署运行你感兴趣的模型镜像

简介

transformer最早于2017年google机器翻译团队提出，也就是著名的
《Attention Is All You Need》，transformer完全取代了以往的RNN和CNN结构，改为由transformer堆叠的方式构建模型。
transformer在NLP领域首先取得了非常惊人的效果，随后,ECCV2020，DETR：《End-to-End Object Detection with Transformers 》首次将transformer引入到了CV的目标检测任务重，随后VIT：《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》完全抛弃了CNN，改为完全由transformer实现基础的图像分类任务，之后transformer在CV领域的应用也变得一发不可收拾。

基本概念

Transformer

transformer是一种网络结构，是一种seq2seq的模型，最开始用于处理机器翻译任务，transformer由encoder和decoder组成，encoder或者decoder又是由多个encoder block和decoder block堆叠而成，encoder block和decoder block分别是用直连，Multi-Head Attention，BN，全连接等基础层通过不同的方式组合连接而成。
在这里插入图片描述

Multi-Head Attention

Multi-Head Attention 包含多个 Self-Attention 层，同一个输入分别传递到 n个不同的 Self-Attention 中，计算得到 n 个输出结果。得到n个输出矩阵之后，Multi-Head Attention 将它们拼接在一起 (Concat)，然后传入一个Linear层，得到 Multi-Head Attention 最终的输出。