语音与声学领域的深度学习应用探索
1. 说话人识别
1.1 说话人识别概述
说话人识别是一个重要的研究领域,在法医学和生物特征认证等方面有广泛应用。许多说话人识别系统依赖于预计算的特征,如 i - 向量或 MFCC,然后将这些特征输入到机器学习或深度学习网络进行分类。而一些深度学习语音系统则绕过特征提取阶段,直接将音频信号输入网络,让网络直接学习低级音频信号特征。
1.2 三种神经网络架构
为了进行说话人验证,训练了三种卷积神经网络(CNN),它们的架构除了第一个卷积层外基本相同:
1. 标准卷积神经网络(Standard CNN) :输入波形直接连接到一个随机初始化的卷积层,该层尝试从原始音频帧中学习特征并捕捉特征。
2. ConstantSincLayer :输入波形与一组在 mel 尺度上等间隔的固定宽度 sinc 函数(带通滤波器)进行卷积。
3. SincNetLayer :输入波形与一组参数由网络学习的 sinc 函数进行卷积。在 SincNet 架构中,网络在训练时调整 sinc 函数的参数。
1.3 数据集
使用 LibriSpeech 数据集的一个子集,该数据集是一个大型的英语语音语料库,采样率为 16 kHz。以下是下载和准备数据集的代码:
dataFolder = tempdir;
dataset = fullfile(dataFolder,"LibriSpeech
超级会员免费看
订阅专栏 解锁全文
2012

被折叠的 条评论
为什么被折叠?



