DL之self-attention:self-attention自注意力机制的简介(背景、特点、改进对比、传统对比、关系、应用,适合长距离捕获分析)、计算过程(八大步骤)、案例应用之详细攻略

DL之self-attention:self-attention自注意力机制的简介(背景、特点、改进对比、传统对比、关系、应用,适合长距离捕获分析)、计算过程(八大步骤)、案例应用之详细攻略

目录

相关文章

Paper:Transformer模型起源—2017年的Google机器翻译团队—《Transformer:Attention Is All You Need》翻译并解读

DL之Attention:Attention注意力机制算法的起源与盛行及其长距离有效的原因、概述(背景/本质/与ED框架关系/架构/优缺点/扩展,理解,本质,变种)、案例应用(CV/NLP)之详细攻略

DL之self-attention:self-attention自注意力机制的简介(背景、特点、改进对比、传统对比、关系、应用,适合长距离捕获分析)、计算过程(八大步骤)、案例应用之详细攻略

Paper:《The Illustrated Transformer—图解Transformer》翻译与解读

Self-Attention算法的简介

1、论文解读《Long Short-Term Memory-Networks for Machine Reading》

2、Self-Attention自注意力机制的概述—捕获长依赖信息:计算查询和键相关性得分【兼容性函数,如点积/加性/双线性】→得分归一化【softmax】→对值加权求和

对比:Attention机制(适合序列到序列,比如机器翻译等,依赖外部信息源(如另一个语言中的对应句子))、Self-Attention机制(适合文本生成、文本摘要等,不依赖外部信息+探究序列内部的关系→可并行计算+捕获长依赖)

3、不同的注意力机制【计算相关性得分】方法:SDP比Additive更好

T1、注意力机制中SDP Attention(缩放点积)的概述

T2、注意力机制中Additive Attention的概述

Self-Attention算法的计算过程

1、Self-Attention自注意力机制—实现的三大流程

2、Self-Attention自注意力机制—实现的六步骤

Paper:《The Illustrated Transformer—图解Transformer》翻译与解读

第1步,输入转换为三个向量

1)、三个向量的深度理解:这些向量究竟是什么?

第2步~第6步:Self-Attention自注意力计算5步骤,三个向量与自注意力之间的关系

3、Self-Attention自注意力机制—模块思路的八大步骤及其代码实现


相关文章

Paper:Transformer模型起源—2017年的Google机器翻译团队—《Transformer:Attention Is All You Need》翻译并解读

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一个处女座的程序猿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值