【音频特征】语音特征小结

最新推荐文章于 2025-09-08 22:35:31 发布

原创

最新推荐文章于 2025-09-08 22:35:31 发布 · 6.7k 阅读

29 ·

CC 4.0 BY-SA版权

文章标签：

#音视频 #语音识别 #人工智能

本文详细介绍了语音识别中的韵律特征和谱特征，包括基频、语速、能量、MFCC、共振峰等，以及特征集如GeMAPS、eGeMAPS、ComParE，这些特征在语音处理和识别领域扮演着重要角色。

文章目录

前言
1. 特征汇总
- 1.1 韵律特征（prosodic feature）
- 1.2 谱特征（spectral feature）
2. 特征集汇总
2.1 GeMAPS特征集
参考文献

前言

本文汇总了一些常见或不常见的语音特征。

1. 特征汇总

1.1 韵律特征（prosodic feature）

包含语音中音高、语调、能量、节奏变化等重要信息，表现为人昕觉系统感知到的“抑扬顿挫”，在语音信号处理的许多领域都有应用。基音频率、语速、能量等都是常用的韵律学特征。

基音频率（fundamental frequency, F0）是指发浊音时声带振动的频率，简称基频。人发声过程中来自肺部的气流冲击声门，形成一系列准周期的气流脉冲，经过声道的谐振及唇齿辐射最终形成语音信号，故浊音波形呈现一定的准周期性，这个周期就是基音周期，它和基频成倒数关系。基频变化范围很大，受性别、年龄、情绪等多种因素的影响。一般而言，男性的基频范围是135-185Hz，女性在260-350Hz之间。

基频检测方法主要有三类：1、时域：基于过零率，自相关等，最好的是YIN/PYIN算法。2、频域：倒谱，谐波，最佳梳妆滤波器等。3、统计方法：最大似然，rnn，HMM等都有。

语速（speaking rate）特征表达了讲话速度的快慢，可以定义为单位时间内发音的词汇（或者音节）个数。语速受文化、环境、思维和表达能力多种因素的影响。和语速密切相关的因素还有停顿，是否考虑语段中的停顿对语速的计算数值有明显影响。

能量（energy）是与语音音量（或者说幅度）相关的声学特征。能量特征包含丰富的情感信息，比如人在悲伤时语音的能量通常会比较低。很早以前 vad（voice active detection) 中有一种检测语音方法：能量大的是语音，能量小的是噪声。当然，这种vad局限性非常大，用途很窄。

过零率 (zero-crossing rate) 核心点是计算信号跨越零点的次数，早期用于vad，判别语音和噪声，局限性也较大。

1.2 谱特征（spectral feature）

含义相对宽泛，通常包含了语音信号的频谱、功率谱、倒频谱、频谱包络等特征。由于语音是短时平稳信号，所以通常用短时傅里叶变化对语音做分析，这样产生的特征能反映语音的短时特性。

梅尔倒谱系数（Mel-frequency Cepstral Coefficients, MFCC）

原理：根据人耳听觉机理的研究发现，人耳对不同频率的声波有不同的听觉敏感度。从200HZ到5000HZ对语音的清晰度影响最大。两个响度不等的声音作用于人耳时，则响度较高的频率成分的存在会影响到对响度较低的频率成分的成分，使其变得不易察觉，这种现象称为掩蔽效应。由于频率较低的声音在内耳蜗基底膜上行波传递的距离大于频率较高的声音，故一般来说，低音容易掩蔽高音，而高音掩蔽低音较困难。在低频处的声音掩蔽临界带宽较高频要小。所以从低频到高频这一频带内按临界带宽

最低0.47元/天解锁文章