Transformer

前言
transformer是一个sequence-to-sequence(seq2seq) 的 model
input a sequence,output a sequence.
The output length is determined by model.
例如
语音辨识:

那么为什么不能把以上三种模型结合起来,进行语音识别呢?
因为有一些语言根本没有文字。Language without text.
台语、闽南语(Hokkien),其方言一般人比较难懂。
所以我们期待说,机器可以做语音的翻译。

第四句上:机器在倒装的句子上没有学习起来。

语音辨识: 语音——>文字
语音合成: 文字——>语音

在文字上,也很广泛的使用了Seq2seq

关于语言处理更多的应用:
QA(Question Answering)

在某些问题上,你可能不认为它是seq2seq model的问题,但是你也可以用s
Transformer模型详解:从Seq2Seq到NAT

本文深入探讨Transformer模型,从Seq2Seq模型的基础出发,讲解Encoder和Decoder的工作原理,特别是Self-Attention和Masked Multi-Head Attention机制。Transformer在BERT中的应用也被提及。此外,文章还讨论了Autoregressive (AT)与Non-autoregressive (NAT)解码器的区别,并提出了决定NAT输出长度的两种方法。最后,文章提到了训练策略如Teacher Forcing和Scheduled Sampling,以及它们在解决暴露偏差问题上的作用。
最低0.47元/天 解锁文章
2716

被折叠的 条评论
为什么被折叠?



