语音信号处理基础(二)

本文深入探讨了语音信号处理的基础,包括时域图、频谱图和语谱图。时域图展示了语音信号的时间波形特性,频谱图通过傅立叶变换揭示了信号的频率成分,而语谱图结合了时间和频率信息,有助于理解语音的动态频谱特性。语谱图中的声纹可用于讲话人识别,并在语音识别和TTS系统评估中发挥关键作用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

语音信号处理基础(二)

语音信号的特性主要是指它的声学特性、时域波形、频谱特性以及语音信号的统计特性等。这些特性对应着各种语音信号特性分析图,如时域图、频谱图和语谱图等。

时域图

时域图中,语音信号直接用它的时间波形表示出来,通过观察时间波形可以看出语音信号一些重要特性。
这里写图片描述
(横轴时间,纵轴振幅)
上图是 “sou ke”的时域图,图中标明了时间及各个音节的起始位置。
由于在时域波形中各个音节间不好明显的分界,因此图中标出的某个音的起点只是粗略的。图中,清辅音[s][k]和元音[ou][e]这两类音的时间波形有很大区别,例如从A点开始的音节[s],以及从C点开始的[k]都是清辅音,它们的波形类似白噪音,振幅很小,没明显周期,而从B点开始的元音[ou]以及从D点开始的[e]都具有明显的周期性,且振幅较大,它们的周期对应的就是声带振动的频率。

语音信号属于短时平稳信号,一般认为在10~30ms内语音信号特性基本上是不变的,或是缓慢的,于是可截取一小段进行频谱分析。

频谱图

简单地说,信号可以通过傅立叶变换而分解成一个直流分量(也就是一个常数)和若干个(一般是无穷多个)正弦信号的和。每个正弦分量都有自己的频率和幅值,这样,以频率值作横轴,以幅值作纵轴,把上述若干个正弦信号的幅值画在其所对应的频率上,就做出了信号的幅频分布图,另外还有相频分布,但其意义不大。

补充:在信号理论和数字信号处理(digital signal processing, DSP)中,离散傅里叶变换(discrete Fourier transform, DFT)扩展用于近似计算连续信号的频谱,其变换的对象只是一个采样点的有限序列,而且可以由快速傅里叶变换(fast Fourier transform, FFT)实现。对一个时域信号进行傅里叶变换,就可以得

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值