Week 19: 深度学习补遗:自注意力和Transformer Encoder架构

Transformer Encoder核心机制解析

Week 19: 深度学习补遗:自注意力和Transformer Encoder架构

摘要

本周主要跟随李宏毅老师的课程进行学习,对自注意力的知识进行了深化学习和理解,并且开始了对于Transformer的模型的学习。

Abstract

This week’s learning primarily followed Professor Hung-yi Lee’s course, deepening my knowledge and understanding of self-attention mechanisms while also initiating the study of Transformer models.

1. Self-Attention 自注意力

自注意力机制对比其他前后文时序模型,例如RNN、LSTM等的显著优势之一是其并行性,即不再需要串行地依赖前文的计算用于后文计算,而是可以并行地计算所有元素的注意力分数。
qi=Wqaiki=Wkaivi=Wvai q^i=W^qa^i \\ k^i=W^ka^i \\ v^i=W^va^i qi=Wqaiki=Wkaivi=Wvai
因为每一个qiq^iqikik^ikiviv^ivi都是aia^iai乘以对应的矩阵运算得到的,于是,可以考虑将aia^iai矩阵拼接,变为III。直接进行矩阵乘法,一次性计算出结果。那么 qiq^iqikik^ikiviv^ivi将会对应变为QQQ<

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值