52、深入理解Transformer架构:从注意力机制到模型构建

深入理解Transformer架构:从注意力机制到模型构建

1. 注意力机制概述

注意力是一个通用概念,可以以不同形式应用于任何类型的深度网络。例如,在卷积神经网络(CNN)中,我们可以对滤波器的输出进行缩放,以强调输入中最相关位置所产生的值。不同类型的注意力层有其对应的图标,如多头注意力用小3D框表示,暗示着注意力网络的堆叠;Q/KV注意力则在菱形内放置一条短线来标识Q输入,并在相邻一侧引入K和V输入。

注意力层类型 图标表示
自注意力 特定图标(未详细描述)
多头自注意力 小3D框
Q/KV注意力 菱形内有短线
多头Q/KV注意力 (未详细描述)

2. Transformer的诞生

在具备嵌入和注意力机制后,我们旨在构建一种基于注意力网络而非循环神经网络(RNN)的翻译器。这一想法源于“Attention Is All You Need”,作者将基于注意力的模型称为Transformer。Transformer模型表现出色,催生了一类新的语言模型,这类模型不仅可以并行训练,还能在各种任务中超越RNN。

Transform

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值