语音识别技术:从音素地标到混合算法的创新探索
1. 音素地标在语音识别中的应用
在语音识别系统中,利用音素地标能显著提升性能。实验表明,使用所有可用地标能大幅降低单音素和三音素系统的词错误率(WER),且单音素系统的提升效果更明显。当使用全部地标时,两个系统的性能相近,单音素系统略占优势,这是因为其生成的词图包含更多句子假设。此外,单音素系统在首次解码后就有不错的表现,这说明将地标驱动解码与简单声学模型结合,能以有限的计算量实现良好的转录效果,使用地标可使平均活跃假设数量和解码时间减少至原来的四分之一。
在实际应用中,可靠地将信号检测和分割为宽泛的音素类别存在一定难度,如鼻音和滑音的检测就颇具挑战。不过,元音、塞音和擦音的检测精度较高。仅使用这三类地标,仍能取得不错的性能提升,尤其是在基于单音素的词图生成中。
以下是不同地标范围下,单音素和三音素系统的词错误率对比表格:
| 地标范围(%) | 0 | 5 | 10 | 20 | 30 | 40 | 50 | 60 |
| — | — | — | — | — | — | — | — | — |
| 单音素 | 22.3 | 14.3 | 14.4 | 14.3 | - | 14.2 | 13.8 | 13.5 |
| 三音素 | 20.7 | - | 15.2 | 15.1 | 15.0 | 14.8 | 14.4 | 14.3 |
从表格数据可以看出,地标范围越长,转录效果越好,但大部分提升源于引入地标这一操作,而非地标的具体范围。例如,单音素系统在地标范围仅为 5% 时,词错误率就从 22.3% 降至 14.3%,当地标范围增加到 50% 时,提升幅度较小,词错误率为
超级会员免费看
订阅专栏 解锁全文
641

被折叠的 条评论
为什么被折叠?



