Listen,Attend,and Spell(LAS)——李宏毅人类语言处理学习笔记

原创已于 2023-04-04 20:42:31 修改 · 716 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#学习 #深度学习 #神经网络

于 2022-11-28 21:37:44 首次发布

李宏毅人类语言处理专栏收录该内容

8 篇文章

订阅专栏

本文深入探讨了语音识别中的关键技术，包括Encoder的作用——去除语者差异和噪音，提取相关信息；Attention机制，如dot-product attention用于计算序列相似度；以及解码策略，如Beam Search解决Greedy Decoding的局限性。此外，还介绍了训练过程中的Teacher Forcing策略和Location-aware attention机制，以优化模型性能。最后，讨论了Listen, Attend and Spell (LAS)模型的限制。

在这里插入图片描述

Listen

Encoder目标：
移除语者之间的差异，去掉noises，提取出与语音辨识的相关信息
输入长度（T）和输出长度一样
在这里插入图片描述
encoder有很多做法：

CNN见文章：CNN-卷积神经网络

在这里插入图片描述

self-attention见文章self-attention

相邻之间差异不是很大，为了节省计算量，让你的训练更有效率，通常会采用down sampling
Pyramid RNN将两个结合，然后送到下一层。Pooling over time则是两个中取一个送到下一层。

在这里插入图片描述

Attention

match这个function可以自己定义，常用的是dot-product attention，作用是计算h1（Key）和z0（Query）的相似度。
在这里插入图片描述
还有一种additive attention

c0（在文献上常常被成为Context Vector)会被当做decoder即RNN input

distribution（是通过softmax的)会给每一个token一个概率值