语音处理中的分类验证与特征转换研究
在语音处理领域,说话人验证和音素分类是两个重要的研究方向。本文将介绍基于感知器的类别验证以及基于流形学习的音素分类特征转换的相关研究。
说话人验证
说话人验证的目标是判断两个语音帧是否来自同一说话人的语音信号。在该任务中,所有说话人类别集是不相交的,因此需要验证多层感知器(MLP)具有良好的泛化能力。
实验比较了K近邻(KNN)和MLP在有输入编码和无输入编码情况下的验证错误率。结果表明,KNN的错误率随着训练向量数量的增加而降低,但收敛速度比合成数据实验中慢,且最终错误率不如MLP低。这可能是由于训练集和测试集的说话人集合不相交,存在一定的不匹配。基于编码向量对的KNN收敛所需的训练向量更少,但使用编码向量对的验证MLP表现稍差。
如果仅从单个语音帧提取特征向量x和y,MLP的验证错误率已经相当低。若将约1秒长的两个等长语音片段中所有语音匹配的帧对分别输入MLP并对输出值求平均,验证错误率约为6%。
通过实验发现,配置和训练得当的验证MLP的错误率接近贝叶斯错误率。虽然训练可能耗时较长,但由于MLP与类别无关,在添加新类别时无需重新训练,因此在说话人验证等具有几乎无限类别集的语音数据应用中,基于MLP的类别验证不仅在验证错误率方面表现出色,在计算复杂度方面也很高效。验证MLP能够学习到区分不同类别的通用规则,而非特定类别的特征。
基于流形学习的音素分类特征转换
特征转换是语音识别过程的重要组成部分,通常包括从声学语音信号的短时段提取相关信息,然后将得到的高维参数向量转换为低维特征向量。其目的是生成简洁的低维表示,保留最具区分性的信息,适合模式分类,同时降低后续
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



