短语音与不同类型形态过程的处理方法研究
在语音识别和自然语言处理领域,短语音的说话人识别以及不同语言形态过程的无监督分割是两个重要的研究方向。本文将介绍两种相关的处理方法,一种是基于模糊C均值聚类质心的短语音直方图均衡化方法,另一种是利用多序列比对的不同类型形态过程无监督分割方法。
短语音直方图均衡化方法
在说话人识别中,当前的系统在训练和测试环境匹配时表现良好,但在实际情况中很难实现这种匹配。特征归一化方法是解决这一问题的常用手段,如倒谱均值归一化(CMN)和均值方差归一化(MVN),但它们对非线性效应的处理能力较弱。直方图均衡化(HEQ)作为一种非线性变换方法,被用于补偿语音中的加性或信道噪声对语音分布的影响。
传统的HEQ在处理短语音时效果不佳,因为短语音的特征向量数量少于500个,难以准确估计累积分布函数(CDF)。为了解决这个问题,研究人员提出了一种基于模糊C均值聚类质心的HEQ方法。
方法原理
该方法基于顺序统计量的HEQ,使用背景说话人语音的聚类质心来增强短语音。具体步骤如下:
1. 离线步骤 :使用模糊C均值算法(m = 2)对每个说话人的通用背景模型(UBM)训练集进行聚类,生成补充样本。将所有质心收集并按升序排序,用于离线和在线步骤中的CDF估计。
2. CDF估计 :将测试特征向量和排序后的质心集进行排序,获取样本的排名。使用测试样本在质心集和自身序列中的排名之和来估计CDF。
3. 序列变换 :使用CDF表获取逆CDF,计算变换后的序列。
超级会员免费看
订阅专栏 解锁全文
1184

被折叠的 条评论
为什么被折叠?



