Week 19: 深度学习补遗:自注意力和Transformer Encoder架构
摘要
本周主要跟随李宏毅老师的课程进行学习,对自注意力的知识进行了深化学习和理解,并且开始了对于Transformer的模型的学习。
Abstract
This week’s learning primarily followed Professor Hung-yi Lee’s course, deepening my knowledge and understanding of self-attention mechanisms while also initiating the study of Transformer models.
1. Self-Attention 自注意力
自注意力机制对比其他前后文时序模型,例如RNN、LSTM等的显著优势之一是其并行性,即不再需要串行地依赖前文的计算用于后文计算,而是可以并行地计算所有元素的注意力分数。
qi=Wqaiki=Wkaivi=Wvai q^i=W^qa^i \\ k^i=W^ka^i \\ v^i=W^va^i qi=Wqaiki=Wkaivi=Wvai
因为每一个qiq^iqi、kik^iki、viv^ivi都是aia^iai乘以对应的矩阵运算得到的,于是,可以考虑将aia^iai矩阵拼接,变为III。直接进行矩阵乘法,一次性计算出结果。那么 qiq^iqi、kik^iki、viv^ivi将会对应变为QQQ<
Transformer Encoder核心机制解析

最低0.47元/天 解锁文章
544

被折叠的 条评论
为什么被折叠?



