基于深度学习的受噪声影响语音质量评估
1. 语音特征提取
在评估语音质量时,噪声会对评估结果产生显著影响。为了减少噪声干扰,专注于有语音活动的部分,我们采用语音活动检测(VAD)技术来分离语音信号中的静音部分,仅考虑语音信号的有声成分进行特征提取。
- VAD技术 :使用设计的加权频谱质心(WS)VAD,它从语音信号的每个帧(15 - 30 ms)中提取频谱质心特征,然后与动态阈值进行比较,以分离静音和有声成分。在不同的非平稳噪声下,WS VAD表现出色。
- 特征提取 :为了开发基于深度神经网络(DNN)的语音质量模型(SQM),需要从语音样本中提取有意义的信息。这里提取了两种特征:线性预测倒谱系数(LSF)和多分辨率听觉模型(MRAM)。
- LSF特征 :LSF对语音的频谱信息进行编码,它从线性预测系数(LPC)计算得出。只需较少的系数就能有效捕捉共振峰结构,且插值效果更好。经过WS VAD处理后,使用帧长为16 ms的有声成分计算10维(10 - D)的LSF特征,仅使用均值来获取该特征,因为均值足以表示语音样本的频谱信息或频谱包络。
- MRAM特征 :MRAM构建语音样本的时频分辨率。同样经过WS VAD处理后,使用帧长为16 ms的有声成分,通过以下步骤计算68 - D的MRAM特征:
- 使用小波包分解将语音能量分解为不同的临界带能量(CBE)。
- 结合外耳和中耳权重,将绝对听力阈值纳入C
超级会员免费看
订阅专栏 解锁全文
981

被折叠的 条评论
为什么被折叠?



