音频处理:测量、特征提取、模拟与MIDI技术
1. 音频测量与特征提取
1.1 音高(Pitch)
音高是声音的一种感知属性,它取决于声音的频率。低频声音(如鼓声)音高较低,而高频声音(如哨声)音高较高。音高可以通过基频和泛音的数量来量化。在音频处理中,可以使用AST函数 pitch 来估计音频信号的基频。该函数会返回估计值及其位置。
下面是一个示例代码,用于估计音频信号中的音高:
clear; clc;
[a,fs] = audioread('SpeechDFT-16-8-mono-5secs.wav');
[f0, idx] = pitch(a, fs);
subplot(211), plot(a); ylabel('Amplitude');
subplot(212), plot(idx, f0); ylabel('Pitch (Hz)'); xlabel('Sample Number')
1.2 语音活动检测(Voice Activity Detection, VAD)
语音活动检测是语音处理中用于检测音频信号中是否存在人类语音的技术。为了分析随时间变化的音频信号,音频会被分割成称为音频帧的片段,然后分别分析每个帧中是否存在语音部分。VAD系统通常会从每个音频帧中提取特征,然后根据分类规则将每个片段分类为包含语音或不包含语音。
典型的VAD系统应用包括语音/说话人识别和语音激活系统。AST函数 voiceActivityDetector 可以检测音频
超级会员免费看
订阅专栏 解锁全文
57

被折叠的 条评论
为什么被折叠?



