基于非线性特征的说话人识别技术解析
1. 引言
说话人识别是判断一个测试语音是否属于给定目标说话人的任务,而训练数据往往有限。传统上,说话人识别采用从语音中提取的低阶倒谱特征,并结合高斯混合模型(GMM)系统。虽然倒谱特征在语音处理中取得了成功,但经过判别式训练的特征可能更适合说话人识别问题。为了实现这一目标,研究人员利用多层感知器(MLP)对声学特征进行转换,以获得更适合说话人识别的特征。
2. 相关技术及实验背景
在说话人识别领域,有两种与本研究直接相关的工作,都涉及到判别式特征的开发。
- 语音判别特征 :使用经过训练以区分音素的MLP生成的特征,已被证明可以提高自动语音识别(ASR)的性能。例如,Tandem/HATS - MLP特征通过MLP输出音素后验概率,结合了长期时间信息。
- 说话人判别特征 :Heck和Konig等人利用MLP从MFCC中提取说话人判别特征,并将其用于GMM说话人识别系统。Morris和Wu等人也采用类似方法,发现增加训练说话人的数量可以提高说话人识别性能,但存在一定上限。
3. 实验方法
3.1 整体设置
- Tandem/HATS - GMM系统 :输入为感知线性预测(PLP)系数帧和临界带能量帧,经过MLP处理后,对输出或隐藏激活值取对数,再进行降维或统计计算,最终用于GMM说话人识别系统。
- Speaker - SVM系统
超级会员免费看
订阅专栏 解锁全文
1059

被折叠的 条评论
为什么被折叠?



