元音识别与鲁棒二进制水印技术研究
元音识别研究
在语音处理领域,元音识别是一个重要的研究方向。研究人员采用了13个梅尔频率倒谱系数(MFCCs)作为特征向量来进行元音识别。他们比较了麦克风录制的元音识别模型和电话录制的元音识别模型的结果,并且使用高斯混合模型(GMMs)来构建元音识别系统。
电话录制元音的分类性能
电话录制元音的分类性能如下表所示:
| | a | i | u | e | e | a | a |
| — | — | — | — | — | — | — | — |
| a | 90 | 0 | 0 | 0 | 0 | 10 | 0 |
| i | 0 | 85 | 0 | 10 | 5 | 0 | 0 |
| u | 0 | 0 | 85 | 0 | 0 | 0 | 15 |
| e | 0 | 0 | 0 | 90 | 10 | 0 | 0 |
| e | 0 | 0 | 0 | 15 | 85 | 0 | 0 |
| a | 0 | 0 | 0 | 0 | 0 | 80 | 20 |
| a | 15 | 10 | 0 | 0 | 0 | 0 | 75 |
从表格数据可以看出,电话录制数据的元音分类性能存在一定的差异。例如,元音“a”被正确分类为“a”的概率为90%,但有10%被错误分类为“a”。
电话数据性能较低的原因
电话数据的平均识别率相比麦克风录制数据略低。这可能是由于不同移动供应商在传输过程中采用的语音编码技术导致的。有研究表明,在语音编码过程中,低阶频率成分(高达300Hz)会受到干扰,但对于该
超级会员免费看
订阅专栏 解锁全文
1026

被折叠的 条评论
为什么被折叠?



