基于流形学习的特征转换与分层神经网络的语音识别技术
在语音识别领域,传统系统在纯净环境下表现出色,但在嘈杂环境中性能大幅下降。为解决这一问题,研究人员提出了多种创新方法,本文将介绍基于流形学习的特征转换和分层神经网络的语音识别技术。
基于流形学习的特征转换
在语音分类任务中,研究人员提出了基于非线性流形学习的特征转换方法,并与线性降维方法主成分分析(PCA)和传统的梅尔频率倒谱系数(MFCC)特征进行了对比。
- 实验设置 :使用26维的MFCC + Δ向量作为三种降维方法(PCA、Isomap、LLE)的高维输入,对TIMIT数据库进行语音分类实验。
- 实验结果 :
- 所有降维方法在低维度下的表现均优于基线MFCC特征,这表明这些方法能够从原始MFCC特征中提取出有区分性的信息。
- 流形学习派生的特征在低维度下比基线MFCC和PCA转换的特征具有更高的分类准确率,说明流形学习算法更能保留区分语音所需的信息,尤其是在低维空间中。这可能是因为这些方法能够利用语音空间中的非线性结构。
- 一般来说,Isomap的性能优于MFCC和PCA特征。与LLE相比,Isomap通常表现出更好的分类准确率,这表明在语音特征转换中,保留全局结构可能比保留局部关系更重要。
| 方法 | 低维度表现 | 分类准确率 | 全局/局部结构 |
|---|
超级会员免费看
订阅专栏 解锁全文
675

被折叠的 条评论
为什么被折叠?



