高效语音处理:从GCI检测到性别识别
高效GCI检测助力稀疏线性预测
在语音处理领域,高效的GCI(声门闭合瞬间)检测对于稀疏线性预测至关重要。实验对比了基于MMF(多尺度测量)和SEDREAMS的GCI检测方法的平均相对计算时间(RCT),结果如下表所示:
| 方法 | RCT (%) |
| — | — |
| weighted - l2 - norm + SEDREAMS GCIs | 46.97 |
| weighted - l2 - norm + MMF GCIs | 7.75 |
从表中可以明显看出,基于MMF的解决方案比基于SEDREAMS的解决方案快得多。需要注意的是,这里使用的是GLOAT工具箱中SEDREAMS的原始实现,而其快速实现版本据说比原始版本快约4倍。
基于MMF的GCI检测算法具有显著优势。它不仅计算成本低,而且特别适合稀疏残差恢复,因为它不依赖于残差本身,而是从几何多尺度测量中提取GCI。这种方法与加权l2 - 范数解决方案相结合,为稀疏残差恢复提供了一种统一的方法,在提高稀疏性的同时,大大降低了算法的整体计算负担。
运行语音中的性别检测新方法
在许多语音和语音分析任务中,准确的性别检测是非常重要的前提,如自动语音识别(ASR)、语音病理检测(VPD)、自动说话人特征化(ASC)或语音合成(SS)等。传统的性别检测方法主要关注基频(f0)和从语音浊音段导出的倒谱特征,但f0的估计在清音片段中复杂甚至不可能,并且在情感语音或强韵律语音中其相关性不可靠。
语音产生模型与特征提取
Fant提出的语音产生模型是一个经典模型,该模
超级会员免费看
订阅专栏 解锁全文
42

被折叠的 条评论
为什么被折叠?



