憨波个-优快云博客

原创【深度学习】Transformer（Attention Is All You Need）

本文介绍了Transformer模型的架构与核心组件。该模型完全基于注意力机制，摒弃了传统的CNN和RNN结构，具有更强的并行化能力和训练效率。模型采用编解码器结构，编码器由多头自注意力层、残差连接、层归一化和前馈网络组成。重点解析了自注意力机制的计算过程，包括查询、键、值的线性变换和缩放点积注意力公式。多头注意力通过分割嵌入维度到多个子空间并行计算，最后合并结果。模型还使用残差连接缓解梯度消失，采用层归一化加速训练。相比传统序列模型，Transformer能更好地处理长距离依赖，成为机器翻译等任务的新基准

2025-12-01 17:58:17 765

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

weixin_45234741的博客

原创【深度学习】Transformer（Attention Is All You Need）

原创【语音识别】Listen, Attend and Spell（LAS）

原创【语音识别】Sequence Transduction with Recurrent Neural Networks（RNN-T）

原创 Win11 安装使用 WSL2

原创【语音识别】Connectionist Temporal Classification Loss（CTCLoss）

原创隐马尔科夫模型（HMM）

空空如也

空空如也

原创 【深度学习】Transformer（Attention Is All You Need）

原创 【语音识别】Listen, Attend and Spell（LAS）

原创 【语音识别】Sequence Transduction with Recurrent Neural Networks（RNN-T）

原创 Win11 安装使用 WSL2

原创 【语音识别】Connectionist Temporal Classification Loss（CTCLoss）

原创 隐马尔科夫模型（HMM）

空空如也

空空如也

原创【深度学习】Transformer（Attention Is All You Need）

原创【语音识别】Listen, Attend and Spell（LAS）

原创【语音识别】Sequence Transduction with Recurrent Neural Networks（RNN-T）

原创【语音识别】Connectionist Temporal Classification Loss（CTCLoss）

原创隐马尔科夫模型（HMM）