目录
自注意力机制(Self-Attention Mechanism)
前馈神经网络(Feed-Forward Neural Network)
4.1 计算Query 向量,Key 向量,Value 向量
6、多头注意力机制(multi-head attention)
1、简介
Transformer是起源于 NLP领域,然后在图像、视频、声音等领域都得到了广泛应用的基础架构,是继MLP、CNN、RNN’后的公认的第四大基础模型结构。
Transformer技术凭借其卓越的表现和广泛的应用前景,已经成为了机器学习领域的一个关键技术。自从2017年Google提出《Att