李沐第十八课《seq2seq》

这节课介绍了seq2seq模型和Attention机制。seq2seq模型适用于输入和输出不定长的情况,通过编码器将输入序列转化为背景向量,解码器根据此向量生成输出。Attention机制允许解码器在不同时刻使用不同的背景向量,对输入序列的不同部分分配注意力,增强了模型的表现力。

这节课主要讲了两个东西,一个是seq2seq(编码器-解码器),一个是attention机制

seq2seq
当输入和输出都不是定长的时候,比如翻译等,我们可以采用编码器-解码器机制,编码器对应输入序列,解码器对应输出序列。
1,编码器的作用是将一个不定长的输入序列转换为一个定长的背景向量c
2,编码器最终输出的背景向量c,这个背景向量c编码了输入序列X1,X2,X3..XT的信息,
3,解码器的作用具体如下图
这里写图片描述


如上的解码器工作时,主要用到的都是相同的背景向量c,但是我们会希望解码器在解码时能用到不同的背景向量c,因此这就引入了attention知识。同时我们应该要知道,在解码时我们的除了用到背景向量c外,还有在t时刻的隐层变量St,以及t-1时刻的输出Yt-1.这是我们引入attention时计算所需要的变量,如下图
这里写图片描述


Attention
截图如图,主要是其用来构造不同时刻的背景向量c引入了attention知识,也就是权重a的计算,注意下图圈出来的四个计算公式。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值