【Transformer】——李宏毅机器学习笔记

Transformer模型详解:从Seq2Seq到NAT
本文深入探讨Transformer模型,从Seq2Seq模型的基础出发,讲解Encoder和Decoder的工作原理,特别是Self-Attention和Masked Multi-Head Attention机制。Transformer在BERT中的应用也被提及。此外,文章还讨论了Autoregressive (AT)与Non-autoregressive (NAT)解码器的区别,并提出了决定NAT输出长度的两种方法。最后,文章提到了训练策略如Teacher Forcing和Scheduled Sampling,以及它们在解决暴露偏差问题上的作用。

Transformer

在这里插入图片描述

前言

transformer是一个sequence-to-sequence(seq2seq) 的 model
input a sequence,output a sequence.
The output length is determined by model.
例如
语音辨识:
在这里插入图片描述
那么为什么不能把以上三种模型结合起来,进行语音识别呢?
因为有一些语言根本没有文字。Language without text.

台语、闽南语(Hokkien),其方言一般人比较难懂。
所以我们期待说,机器可以做语音的翻译。
在这里插入图片描述
第四句上:机器在倒装的句子上没有学习起来。
在这里插入图片描述
语音辨识: 语音——>文字
语音合成: 文字——>语音
在这里插入图片描述
在文字上,也很广泛的使用了Seq2seq
在这里插入图片描述
关于语言处理更多的应用:
QA(Question Answering)
在这里插入图片描述
在某些问题上,你可能不认为它是seq2seq model的问题,但是你也可以用s

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我是小蔡呀~~~

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值