端到端深度语音分离技术详解
1. 引言
语音分离是一项具有挑战性且关键的语音处理任务。近年来,基于深度学习的语音分离方法不断涌现,其中大部分依赖于时域音频混合信号的时频变换。然而,基于时频方法的解决方案存在两个主要缺点:
- 时频表示转换回时域需要相位估计,这会引入误差并导致重建不完美。
- 需要相对较长的窗口来获得高分辨率的频率表示,这会导致高计算复杂度和实时场景中不可接受的延迟。
为了克服这些问题,我们将探索一种直接作用于音频信号的深度学习语音分离网络,绕过了时频变换带来的问题。
2. 使用预训练网络进行语音分离
2.1 下载预训练网络
在从头开始训练深度学习网络之前,我们将使用预训练版本的网络从示例混合信号中分离出两个说话者的语音。首先,下载预训练网络和示例音频文件:
downloadFolder = matlab.internal.examples.downloadSupportFile("audio","speechSeparation.zip");
dataFolder = tempdir;
unzip(downloadFolder,dataFolder)
netFolder = fullfile(dataFolder,"speechSeparation");
2.2 准备测试信号
加载对应两个不同说话者的音频信号,两个信号的采样率均为 8 kHz。然后对信号进行归一化处理,并听取每个信号的前几秒。最后将两个信号组合成一个混合信号,并听取混合信号的前几秒。 <
端到端语音分离技术解析
超级会员免费看
订阅专栏 解锁全文
26

被折叠的 条评论
为什么被折叠?



