论文一:基于深度聚类的单通道多语音分离
核心工作:通过信号调节(正则化、加深网络结构)将基本DPCL系统性能极大地提升
提升方法:Drop-out、调整网络结构、训练策略等
Drop-out设置:随机节点置零有可能会让LSTM的记忆能力;在前向连接的每个时期对置零掩码采样,循环连接的每个时序进行一次采样,每个门用一个循环置零掩码,
网络结构:双层BLSTM并且前面用一个前置反馈层来产生嵌入层。
训练策略:
1. 训练阶段,语音分成不重叠的固定长度片段,并用来计算梯度;
2. 测试阶段,因为网络和聚类被赋予完整的语音片段,因此可以在全局解决排列问题;
3. 总体就是用较短的片段进行预训练,用较长的片段做训练会效果更好
4. 使用两、三声源进行混合训练实现多风格的训练方式
信号重构:
DPCL虽然解决了对每个声源的主导区域进行频谱分割的问题,但仍存在难以从其他声源恢复主导区域声源的问题
论文二:(DPCL)深度聚类:用于分割和分离的区分性嵌入层
核心工作:提出一种将对比嵌入分量到每个频谱的时频区域,从混合语音中隐式地预测目标频谱的分离标签的深度网络。该系统在双声源甚至三声源测试中效果显著。
实验设置:
1. 两种未知语音的分离
2. 三种未知语音的分离
3. 三种已知语音的分离(测试阶段又分为相同的语音源和不同的语音源)
聚类方法:
1. 全局嵌入层上的K均值聚类
2. 每片100帧上进行的局部K均值聚类
实验结论:
1. DC无论是在开集还是闭集训练中均得到很好的效果,因此能推广到未知的说话人
2. 嵌入至少20维度的嵌入层效果才有较好提升
3. BLSTM无法应对未知说话人的情况,说明基于类的方法无法应对排列未知的问题
4. DC方法可以在只双声源训练的情况下很好地区分三声源