论文一:(DANet)基于单麦克风语音分离的深度吸引子网络
核心工作:提出了在高维空间中嵌入吸引子(Attractor)将时频信息整合来训练的网络,模型实现了端到端的训练,分离不需要知道混合源的数量。
分离的难点:
1. 排序问题:混合语音会出现多个标签,无法分清属于哪个;
2. 输出维度不匹配(标签不明确):不清楚具体有几个声源
深度聚类(DPCL)特点:能解决以上两点问题,但目标函数是各声源之间的关联性,因此不能执行端到端的映射。
置换不变训练(PIT)特点:该方法假设声源数量固定,因此存在输出维度不匹配的问题,由于样本段和样本内之间排列不一致,预测窗口要远小于上下文窗口(context window)
吸引子:提出这种感知效应表明,大脑回路产生感知吸引子(磁铁),使刺激空间扭曲,从而吸引离刺激空间最近的声音,这种现象被称为“感知磁铁效应”.
测试阶段的吸引子设置:
1. 类似于DC的使用K均值算法确定中心;
2. 实验发现吸引子位置相对稳定,因此可以通过观测得出。
与DC对比:
1. 基本的DAN已经超过DC性能了
2. 不断调整吸引子的形成效果更好,如联合优化网络参数
3. 运用课程培训策略(curriculum traini
深度吸引子网络 Deep attractor Net单通道语音分离文献汇总
最新推荐文章于 2024-10-03 21:52:24 发布