特定领域自动语音识别系统的统计纠错方法与对话管理的奖励塑造
特定领域自动语音识别系统的统计纠错
在自动语音识别(ASR)系统中,错误纠正是提升性能的关键环节。过去10 - 15年里,提出了多种ASR纠错方法,这些方法大多将ASR系统视为黑盒,通过后置处理模块来修正原始转录文本。
半监督语言模型(LM)自适应
半监督LM自适应方法在提升ASR性能方面表现出色。该方法通过使用正确的ASR转录文本来调整LM,从而提高特定领域词汇和词组的识别概率。以下是不同数量自适应转录文本下的字错误率(WER)和相对增益:
| 自适应转录文本数量 | WER [%] | 相对增益 |
| — | — | — |
| 0(基线ASR) | 11.4% | n/a |
| 500 | 6.8% | 40% |
| 1000 | 6.0% | 47% |
| 1500 | 5.4% | 53% |
| 2000 | 4.9% | 57% |
从表格数据可以看出,随着自适应转录文本数量的增加,WER显著降低,相对增益不断提高。这表明半监督LM自适应方法能够有效利用标注数据来优化ASR系统。
半监督LM自适应还具有以下优势:
- 手动修正转录文本中的所有单词的LM概率得到提升。
- 错误识别的单词和词组不会获得LM概率提升。
- 在开发阶段可以检测并恢复许多基线ASR的未登录词(OOV)。
例如,基线ASR系统在开发数据库中缺少315个单词(315个OOV),如“climatologice”(气候学地)、“burniţă”(毛毛雨)等。通过自适应过程
超级会员免费看
订阅专栏 解锁全文
877

被折叠的 条评论
为什么被折叠?



