语音特征
语音特征提取涉及从语音信号中提取出一系列与声学和语言学相关的特征, 包括但不限于光谱特征、韵律特征和语音特征。
这些特征向量可以捕捉到语音信号的频率内容、音高、节奏以及共振峰等信息,为后续的语音处理和分析任务提 供基础。
1、短时傅里叶变换
对于一段平稳的信号,可以使用傅里叶变换将其转换为频谱,进而可以清晰地得到完整的原始信号中包含的所有频率分量。但由于缺失时间信息,无法用其描述局部区域上的频率特征。
对于随时间不断变化的信号,短时傅里叶变换(Short-Time Fourier Transform,STFT)是一种常用的特征提取方法,用于将时域信号转换为频域表征,并捕获信号在时间和频率上的局部信息。 STFT 的提取流程分为以下几步:
- 分帧:将原始音频信号分成多个重叠的时间窗口,窗口之间会有一定的重叠(通常为14 的窗口长度),以确保相邻窗口之间的信息不会丢失。
- 加窗:对每个时间窗口应用窗函数(如汉明窗、矩形窗等),以减少窗口两端的信号衰减带来的频谱泄漏效应。
- 傅里叶变换:对每个加窗后的时间窗口应用傅里叶变换,将信号从时域转换到频域。
- 幅度谱计算:计算每个时间窗口的频谱幅度,通常是傅里叶变换结果的模值。
- 频谱拼接:将每个时间窗口的频谱幅度串联起来,形成完整的频谱表示。 形式上来说,给定一个连续的信号 𝑥(𝑡),它的 STFT 计算公式可表示为:
X ( t , w ) = ∫ − ∞ ∞ x ( τ ) ⋅ w ( t − τ ) ⋅ e − j w τ d τ X(t,w)=\int_{-\infty }^{\infty } x(\tau )\cdot w(t-\tau )\cdot e^{-jw\tau }d_\tau X(t,w)=∫−∞∞x(τ)

最低0.47元/天 解锁文章
7万+

被折叠的 条评论
为什么被折叠?



