transformer

Transformer模型由Google在2017年提出,最初用于机器翻译,其创新的注意力机制颠覆了传统的RNN和CNN。随着DETR和VIT的出现,Transformer逐步在目标检测和图像分类等计算机视觉任务中取得突破,成为CV领域的研究热点。Transformer由Encoder和Decoder组成,核心组件包括Multi-Head Attention、Self-Attention和Positional Encoding,解决序列信息处理的并行性和位置信息保留问题。
部署运行你感兴趣的模型镜像

简介

transformer最早于2017年google机器翻译团队提出,也就是著名的
《Attention Is All You Need》,transformer完全取代了以往的RNN和CNN结构,改为由transformer堆叠的方式构建模型。
transformer在NLP领域首先取得了非常惊人的效果,随后,ECCV2020,DETR:《End-to-End Object Detection with Transformers 》首次将transformer引入到了CV的目标检测任务重,随后VIT:《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》完全抛弃了CNN,改为完全由transformer实现基础的图像分类任务,之后transformer在CV领域的应用也变得一发不可收拾。

基本概念

Transformer

transformer是一种网络结构,是一种seq2seq的模型,最开始用于处理机器翻译任务,transformer由encoder和decoder组成,encoder或者decoder又是由多个encoder block和decoder block堆叠而成,encoder block和decoder block分别是用直连,Multi-Head Attention,BN,全连接等基础层通过不同的方式组合连接而成。
在这里插入图片描述

Multi-Head Attention

Multi-Head Attention 包含多个 Self-Attention 层,同一个输入分别传递到 n个不同的 Self-Attention 中,计算得到 n 个输出结果。得到n个输出矩阵之后,Multi-Head Attention 将它们拼接在一起 (Concat),然后传入一个Linear层,得到 Multi-Head Attention 最终的输出 。

Self-attention

self-attention是一种新的layer,输入输出都是sequence,不同于RNN的是,self-attention layer可以做到并行。

Positional Encoding

self-attention的特性很好的实现了时序上的并行,但是也带来了其他问题,那就是没有了位置信息,一个sequence上不同位置的信息,self-attention是做同等处理的,这显然不符合NLP天然的时序逻辑,positional encoding的引入就是为了解决这个问题。

self-attention

Multi-Head Attention

Positional Encoding

您可能感兴趣的与本文相关的镜像

Seed-Coder-8B-Base

Seed-Coder-8B-Base

文本生成
Seed-Coder

Seed-Coder是一个功能强大、透明、参数高效的 8B 级开源代码模型系列,包括基础变体、指导变体和推理变体,由字节团队开源

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值