DL之self-attention:self-attention自注意力机制的简介(背景、特点、改进对比、传统对比、关系、应用,适合长距离捕获分析)、计算过程(八大步骤)、案例应用之详细攻略
目录
Paper:Transformer模型起源—2017年的Google机器翻译团队—《Transformer:Attention Is All You Need》翻译并解读
DL之Attention:Attention注意力机制算法的起源与盛行及其长距离有效的原因、概述(背景/本质/与ED框架关系/架构/优缺点/扩展,理解,本质,变种)、案例应用(CV/NLP)之详细攻略
DL之self-attention:self-attention自注意力机制的简介(背景、特点、改进对比、传统对比、关系、应用,适合长距离捕获分析)、计算过程(八大步骤)、案例应用之详细攻略
Paper:《The Illustrated Transformer—图解Transformer》翻译与解读
1、论文解读《Long Short-Term Memory-Networks for Machine Reading》
2、Self-Attention自注意力机制的概述—捕获长依赖信息:计算查询和键相关性得分【兼容性函数,如点积/加性/双线性】→得分归一化【softmax】→对值加权求和
3、不同的注意力机制【计算相关性得分】方法:SDP比Additive更好
T1、注意力机制中SDP Attention(缩放点积)的概述
T2、注意力机制中Additive Attention的概述
1、Self-Attention自注意力机制—实现的三大流程
Paper:《The Illustrated Transformer—图解Transformer》翻译与解读
第2步~第6步:Self-Attention自注意力计算5步骤,三个向量与自注意力之间的关系
3、Self-Attention自注意力机制—模块思路的八大步骤及其代码实现