- 博客(4)
- 收藏
- 关注
原创 Transformer模型各模块功能详细介绍
Transformer模型是编码器-解码器结构,如下图所示,其编码器和解码器均由一个编码层和若干个相同的Transformer块堆叠而成,编码器的Transformer块主要包含多头自注意力模块和全连接前馈层,并通过残差连接和层归一化操作连接。但解码器负责生成目标语言序列,这一生成过程是自回归的,即对于每一个单词的生成过程,仅有当前单词之前的目标语言序列是可以被预测的,因此额外增加的掩码用来掩盖后续文本的信息,以避免模型在训练阶段直接看到后续的文本序列以导致模型无法得到有效地训练。
2025-08-11 15:02:33
1155
原创 深度学习——卷积神经网络(CNN)
1. 理解有关卷积神经网络的一些概念和构成所有卷积⽹络主⼲的基本元素。包括本⾝、(padding)和(stride)的基本细节、⽤于在相邻区域汇聚信息的、在每⼀层中(channel)的使⽤, 以及有关现代卷积⽹络架构的仔细讨论。
2025-07-08 16:35:48
1121
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅
1