63、基于子词WFST的自动语音识别系统词汇扩展

基于子词WFST的自动语音识别系统词汇扩展

1. 相关工作

在自动语音识别(ASR)系统中,未登录词(OOV)问题是一个普遍存在的挑战。大多数系统通常只能识别固定的词汇集合,难以涵盖系统使用过程中遇到的所有词汇。当遇到OOV时,系统会尝试寻找声学上最接近的已登录词(IV),这可能会影响上下文理解,给终端用户或下游模型(如机器翻译、意图检测)带来困扰。

字符或基于字素的端到端(E2E)系统看似是解决OOV问题的理想方案。它们利用神经网络模型直接将音频(声学特征)映射到文本(字素),以数据驱动的方式进行全局优化,相较于传统的混合ASR系统,降低了复杂度。而且,E2E系统能够将发音和语言信息作为单一模型进行联合学习,在处理开放词汇问题时表现出较强的鲁棒性。然而,尽管具有开放词汇的优势,基于字素的E2E系统在性能上仍显著落后于基于子词或单词的系统。

此外,E2E系统需要更多的训练数据才能超越混合系统。对比实验表明,在不规则拼写的英语中,只有当训练数据超过10000小时时,E2E系统才会优于混合ASR系统;而当数据较少(约100 - 1000小时)时,混合系统的性能更优。在土耳其语和格鲁吉亚语等较小数据集(分别为73.4小时和50.2小时)上,E2E系统的词错误率(WER)分别高达38.9%和46.3%,可能无法满足某些任务的需求;而在相同的格鲁吉亚语数据集上,混合ASR系统的WER可降至32.2%。

立陶宛语有几个公开可用的语料库,如LIEPA1、SEIMAS和LIEPA2,总计约1300小时。但在训练立陶宛语ASR基线系统时,只有约300小时的数据可用(没有LIEPA2)。除了一些辅音同化规则外,立陶宛语的拼写相对规则,理论上E2E系统学习识别常规立陶宛语单词所需的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值