语音机器翻译技术全解析
1. 语音翻译概述
语音翻译面临两大新问题,首要的是识别源语言的语音。尽管近三十年来语音识别有显著进步,但仍未完全解决。在理想条件下,如高质量、清晰发音且话题常见的语音(像训练有素的新闻播音员朗读的内容),单词错误率约为 5%,而人类转录此类语音时标注者间的分歧通常低于 1%,可见即使最佳情况仍远逊于人类表现。一旦偏离理想条件,任务难度大增,话题不寻常、说话更自然、有口音或方言、存在声学退化(如噪音或混响)等情况都会使单词错误率大幅上升至 20%、30%甚至更高。
语音识别过程可分为特征计算、声学建模和语言建模三部分。特征计算方面,我们计算与感知扭曲频率轴上的短期功率谱相关的特征,为增强特征能力,常串联多帧特征,部分方法甚至考虑半秒内的特征。
目前,所有先进的语音识别器都以隐马尔可夫模型(HMMs)为基本方法,但使用 HMMs 对可能的声学(特征)序列进行建模有多种方式,不同系统在参数共享和估计标准上存在差异。语言建模中,常用马尔可夫链模型(n - gram 模型)估计给定前 n - 1 个单词时下一个单词的概率。
不同语言有其特殊情况。阿拉伯语书写通常省略变音符号,单词数量多,且存在多种方言,与正式的现代标准阿拉伯语差异较大。普通话则通过声调区分不同单词,书写时字符间无空格,难以确定单词边界。此外,语音识别系统会对翻译过程产生影响,语音缺乏文本中清晰的句子断点和标点信息,系统需在无此信息的情况下工作或尝试重建。
2. 前端特征
2.1 前端特征简介
多数先进的语音识别系统采用倒谱前端。近年来流行多流方法,从语音信号中提取不同类型的特征,并在特征级、模型级或多系统输出端
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



