使用深度学习网络进行鸡尾酒会声源分离
1. 引言
鸡尾酒会效应指的是大脑能够专注于单一说话者,同时过滤掉其他声音和背景噪音的能力。人类在解决鸡尾酒会问题上表现出色。本文将展示如何使用深度学习网络从男女同时说话的混合语音中分离出各自的语音信号。
2. 下载所需文件
在详细介绍示例之前,需要下载一个预训练网络和 4 个音频文件。操作步骤如下:
downloadFolder = matlab.internal.examples.downloadSupportFile("audio","CocktailPartySourceSeparat");
dataFolder = tempdir;
unzip(downloadFolder,dataFolder);
dataset = fullfile(dataFolder,"CocktailPartySourceSeparation");
3. 问题概述
3.1 加载音频文件
加载采样率为 4 kHz 的男性和女性语音音频文件,并分别聆听以作参考。
[mSpeech,Fs] = audioread(fullfile(dataset,"MaleSpeech-16-4-mono-20secs.wav"));
sound(mSpeech,Fs);
[fSpeech] = audioread(fullfile(dataset,"FemaleSpeech-16-4-mono-20secs.wav"));
s
超级会员免费看
订阅专栏 解锁全文
2173

被折叠的 条评论
为什么被折叠?



