语音信号的预处理

1 概述

       语音信号是一种非平稳的时变信号,它携带着各种信息。在语音编码、语音合成、语音识别和语音增强等语音处理中都需要提取语音中包含的各种信息。一般而言语音处理的目的有两种:一种是对语音信号进行分析,提取特征参数,用于后续处理;另一种是加工语音信号,例如在语音增强中对含噪语音进行背景噪声抑制,以获得相对“干净”的语音;在语音合成方中需要对分段语音进行拼接平滑,获得主观音质较高的合成语音,这方面的应用同样是建立在分析并提取语音信号信息的基础上的。总之,语音信号分析的目的就在于方便有效地提取并表示语音信号所携带的信息。

       根据所分析的参数类型,语音信号分析可以分成时域分析和变换域(频域、倒谱域)分析。其中时域分析方法是最简单、最直观的方法,它直接对语音信号的时域波形进行分析,提取的特征参数主要有语音的短时能量和平均幅度、短时平均过零率、短时自相关函数和短时平均幅度差函数等。

2 语音信号的预处理 

       实际的语音信号是模拟信号,因此在对语音信号进行数字处理之前,首先要将模拟语音信号s(t)以采样周期T采样,将其离散化为s(n),采用周期的选取应根据模拟语音信号的带宽(依奈奎斯特采样定理)来确定,以避免信号的频域混叠失真。在对离散后的语音信号进行量化处理过程中会带来一定的量化噪声和失真。在实际中获得数字语音的途径一般有两种,正式的和非正式的。正式的是指大公司或语音研究机构发布的被大家认可的语音数据库,非正式的则是研究者个人录用软件或者硬件电路加麦克风随时随地录制的一些发音数据库,非正式为初学者,可使用多媒体计算机,安装相关的音频处理软件即可获得语音数据文件。语音信号的频率范围通常是300~3400Hz,一般情况下取采样率为8KHZ即可。

       有了语音数据文件后,对语音的预处理包括:预加重和加窗分帧等。

2.1 语音信号的预加重处理

       对输入的数字语音信号进行预加重,其目的是为了对语音的高频部分进行加重,去除口唇辐射的影响,增加语音的高频分辨率。一般通过传递函数为的一阶FIR高通数字滤波器来实现预加重,其中a为预加重系数,。设n时刻的语音采样值为x(n),经过预加重处理后的结果为,这里a=0.98。

       以下是预加重前和预加重后的一段浊音信号及频谱,可以看出,预加重后的频谱在高频部分的幅度得到了提升。

       

2.2 语音信号的加窗处理

      进行预加重数字滤波处理后,接下来进行加窗分帧处理。语音信号是一种随时间而变化的信号,主要分为浊音和清音两大类。浊音的基音周期、清浊音信号幅度和声道参数等都随时间而缓慢变化。由于发声器官的惯性运动,可以认为在一小段时间里(一般为10~30ms)语音信号近似不变,即语音信号具有短时平稳性。这样,可以把语音信号分为一些短段(称为分析帧)来进行处理。语音信号的分帧是采用可移动的有限长度窗口进行加权的方法来实现的。一般每秒的帧数为33~100帧,视实际情况而定。分帧虽然可以采用连续分段的方法,但一般要采用交叠分段的方法,这是为了使帧与帧之间平滑过渡,保持其连续性。前一帧和后一帧的交叠部分称为帧移,帧移与帧长的比值一般取0~1/2。

常用的窗有两种,一种是矩形窗,窗函数如下:

        

       

另一种是汉明(Hamming)窗,窗函数如下:

   

    

       注:矩形窗的主瓣宽度小于汉明窗,具有较高的频谱分辨率,但是矩形窗的旁瓣峰值较大,因此其频谱泄漏比较严重。相比较,虽然汉明窗的主瓣宽度较宽,约大于矩形窗的一倍,但是它的旁瓣衰减较大,具有更平滑的低通特性,能够在较高的程度上反映短时信号的频率特性。

       在确定了窗函数以后,对语音信号的分帧处理,实际上就是对各帧进行某种变换或运算。设这种变换或运算用T[]表示,x(n)为输入语音信号,w(n)为窗序列,h(n)是与w(n)有关的滤波器,则各帧经处理后的输出可以表示为:

       

       

    

### 关于语音信号预处理中的FFT应用 #### FFT在语音信号预处理的作用 快速傅里叶变换(Fast Fourier Transform, FFT)是一种用于计算离散傅里叶变换及其逆运算的有效算法。对于语音信号而言,通过FFT能够将时间域上的数据转换到频率域上表示,从而更直观地观察并操作不同频率成分的信息。 利用MATLAB内置的`fft()`函数可以方便快捷地完成这一过程,在实际编程过程中只需要提供待变换的时间序列作为输入参数即可获得相应的频谱图[^2]。 #### MATLAB代码实例展示如何使用FFT进行语音信号预处理 下面给出一段简单的MATLAB脚本用来读取音频文件并对其中的声音做FFT分析: ```matlab % 加载.wav格式的单声道音频文件 [file,Fs]=audioread('example_audio_file.wav'); % 对原始声音样本执行快速傅立叶变换 N=length(file); Y=fft(file); % 计算双边幅度谱P2以及对应的单边幅值P1 P2 = abs(Y/L); P1 = P2(1:N/2+1); P1(2:end-1) = 2*P1(2:end-1); % 绘制结果图形 f = Fs*(0:(L/2))/L; figure; plot(f,P1) title('单边振幅谱') xlabel('f (Hz)') ylabel('|P1(f)|'); ``` 上述程序片段展示了怎样加载一个`.wav`类型的音频文档,并对其实施了基本形式下的FFT变换;最后还绘制出了该音频对应的一侧频谱图像来辅助理解和解释所获取的数据特征。 #### 进一步优化与扩展 为了使得到的结果更加精确可靠,通常还需要考虑以下几个方面的工作: - **去除直流偏置**:即减去平均值以消除可能存在的DC分量影响; - **窗口化处理**:采用汉宁窗或其他适合的选择减少截断效应带来的误差; - **功率谱密度估计**:除了直接查看幅度外还可以进一步求解PSD曲线反映能量分布情况。 这些改进措施有助于提高最终输出的质量,使得后续诸如降噪、增强等任务变得更加容易有效开展[^3]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值