本文主要观点来自于 google论文。
Towards End-to-EndSpeech RecognitionUsing Deep Neural Networks。
问题背景:
传统语音识别系统需要经过提特征,声学建模(state-phoneme-triphone),语言建模系列过程,其中声学建模需要对上下文相关的音素模型进行状态聚类,对每一帧特征需要做对齐。
端到端系统主要提出了下面的问题:
1. 特征表示:
神经网络既然可以用来做特征学习,是否可以直接从原始音频信号中直接提取特征,不需要手工的提取log-mel特征?
2. 声学建模:
DNN,CNN 和 LSTM通常用来进行声学建模,通过结合这些结构是否可以更好建模?
3. 是否可以减少对现有CD-state(通过HMM训练和聚类得到)和aligment的依赖?例如利用CTC
(1))
LSTM的时序建模直接在特征做xt, 对xt进行高维建模可以减少谱变化,能更好的学习时序结构,卷积网络能很好的减少谱差异性,将特征映射到一个说话人空间。
考虑到LSTM局限性,CLDNN通过结合三种网络结构,来解决问题:
一是把特征输入到CNN层,降低谱差异性,二是把CNN的输出输入到LSTM建模时序特征,三是把LSTM的输出作为DNN的输入,减少LSTM隐层的变化,使得特征转化到更可分的空间。
CLDNN的处理过程:
1. mel特征 40dim
2. 频域的卷积fconv: ICASSP 2013
3. LSTM层: 2到3层,每层832个记忆元
4. DNN层: 一个relu layer层(1024),一个线性层(512)
实验结果证明了在filter-bank的特征上,通过结合三种不同结构的神经网络,比单一网络结构有提升
Raw-waveform CLDNNs