跨语言音素识别的分层多任务架构研究
1 音素识别中的正字法深度影响
在音素识别性能方面,正字法深度有着显著影响。例如,瑞典语在相关模型中具有较高的音素错误率(PER),这可能归因于其较深的正字法。在测试数据里,瑞典语的 PER 排在第六高。而越南语的 PER 在测试集中排第四高,原因可能是它在训练数据中是资源第二少的语言,仅有 2259 条有效语音,并且它是训练数据中唯一的南亚语系语言,无法从语料库中紧密相关的语言中受益。
相反,西班牙语、加泰罗尼亚语、意大利语和罗马尼亚语这四种罗曼语族语言的音素识别最为准确。这可能是因为它们在多语言环境中受益于彼此的紧密关系,另外,这些语言的正字法深度也是一个可能的因素。比如,意大利语的正字法比法语更浅,这或许解释了在“分层无空白”模型中,同为罗曼语族的法语却有着高达 13.8 pp 的 PER。
2 UCLA 语音语料库的模型评估
将模型应用于 UCLA 语料库的跨语言音素和发音属性识别,结果如下表所示:
| 名称 | PER | PER . σ 2 | 插入率 | 删除率 | 替换率 | AER | AER . σ 2 |
| — | — | — | — | — | — | — | — |
| 仅音素 | 64.21% | 154.37 | 3.76% | 20.52% | 39.93% | – | – |
| 多任务 | 68.66% | 133.46 | 1.98% | 37.90% | 28.78% | 32.47% | 61.25 |
| 分层 | 66.67% | 164.86 | 3.25% | 30.76% | 32.66% | 33.10% | 78.
超级会员免费看
订阅专栏 解锁全文
1068

被折叠的 条评论
为什么被折叠?



