先进循环神经网络与序列判别训练在自动语音识别中的应用
1. 先进循环神经网络评估
在自动语音识别(ASR)领域,先进的循环神经网络(RNN)模型正发挥着重要作用。为了评估不同模型的性能,采用了词错误率(WER)这一指标。实验主要在AMI会议语料库上进行,若未特别说明,使用的是SDM评估集。由于在模型训练时未排除重叠语音段,因此除了给出完整评估集的结果外,还给出了仅包含非重叠语音段子集的结果。
1.1 PAC - RNN
PAC - RNN在两个不同任务上进行了评估:使用IARPA - Babel语料库的低资源语言大词汇量连续语音识别(LVCSR)任务,以及使用AMI语料库的远场语音识别任务。
- 低资源语言任务 :不同模型在低资源语言设置下的WER结果如下表所示:
|目标语言|宿务语|库尔德语|斯瓦希里语|
| ---- | ---- | ---- | ---- |
|最接近语言|他加禄语|土耳其语|祖鲁语|
|SBN模型 - 单语|73.5|86.2|65.8|
|SBN模型 - 适应多语言|65.0|75.5|54.9|
|SBN模型 - 最接近语言|63.7|75.0|54.2|
|混合模型 - DNN|63.9|74.9|54.0|
|混合模型 - LSTM|63.0|74.0|53.0|
|混合模型 - PAC - RNN - DNN|62.1|72.9|52.1|
|混合模型 - PAC - RNN - LSTM|60.6|72.5|51.4|
|混合模型 - 最接近语言初始化 - DNN|62.7|73.1|52.4|
先进RNN与序列判别在ASR中的应用
超级会员免费看
订阅专栏 解锁全文
828

被折叠的 条评论
为什么被折叠?



