13、基于非线性特征的说话人识别技术解析

基于非线性特征的说话人识别技术解析

1. 引言

说话人识别是判断一个测试语音是否属于给定目标说话人的任务,而训练数据往往有限。传统上,说话人识别采用从语音中提取的低阶倒谱特征,并结合高斯混合模型(GMM)系统。虽然倒谱特征在语音处理中取得了成功,但经过判别式训练的特征可能更适合说话人识别问题。为了实现这一目标,研究人员利用多层感知器(MLP)对声学特征进行转换,以获得更适合说话人识别的特征。

2. 相关技术及实验背景

在说话人识别领域,有两种与本研究直接相关的工作,都涉及到判别式特征的开发。

  • 语音判别特征 :使用经过训练以区分音素的MLP生成的特征,已被证明可以提高自动语音识别(ASR)的性能。例如,Tandem/HATS - MLP特征通过MLP输出音素后验概率,结合了长期时间信息。
  • 说话人判别特征 :Heck和Konig等人利用MLP从MFCC中提取说话人判别特征,并将其用于GMM说话人识别系统。Morris和Wu等人也采用类似方法,发现增加训练说话人的数量可以提高说话人识别性能,但存在一定上限。
3. 实验方法
3.1 整体设置
  • Tandem/HATS - GMM系统 :输入为感知线性预测(PLP)系数帧和临界带能量帧,经过MLP处理后,对输出或隐藏激活值取对数,再进行降维或统计计算,最终用于GMM说话人识别系统。
  • Speaker - SVM系统
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值