UNSSOR:利用超定训练混合物进行无监督神经语音分离
这篇文章提出算法UNSSOR,用于在有回声和多个说话者并存的环境中进行无监督的语音分离
- 问题背景:在多个并行说话者的回声环境中,每个麦克风接收到的是多个说话者声音的混合信号。文章研究了这种情况下如何进行语音分离,尤其是在“超定”条件(over-determined conditions)下(即麦克风数量大于说话者数量)。
- 解决方案:文章提出了一个基于约束优化的无监督语音分离方法。
通过利用每个混合信号的约束(即每个麦克风接收到的多个说话者的声音估计应该相加等于混合信号),来实现无监督的语音分离。 - UNSSOR算法:
- 训练过程:在每个训练步骤中,将混合信号输入到深度神经网络(DNN)中,网络生成每个说话者的初步估计。然后,这些估计通过线性滤波器进行优化,以确保每个麦克风的所有说话者的滤波后估计之和等于混合信号,从而满足上述约束。
- 线性滤波器的计算:每个子带使用前向卷积预测(FCP)算法来计算线性滤波器,这帮助在频率子带上解决问题。
- 频率排列问题:为了应对由子带FCP方法引起的频率排列问题,文章提出了一种损失项来最小化同一说话者的幅度散射,从而解决了这个问题。
- 实验结果:通过在回声环境中进行双说话者分离的实验,文章验证了UNSSOR算法的有效性,并展示了其在无监督语音分离中的潜力。
1. introduction
背景
- 语音分离任务:语音分离是一种从混合音频中提取出各个独立声源的技术,例如解决“鸡尾酒会问题”(cocktail party problem),即在多个说话人同时发声的情况下分离出每个人的语音。
- 传统方法的进展:
- 深度学习:深度聚类(Deep Clustering)和基于置换不变训练(PIT, Permutation Invariant Training)的方法解决了标签置换问题
- 这些方法属于监督学习,需要干净语音和合成混合语音的配对数据进行训练
- 监督学习的局限性:
- 数据分布不匹配:合成的训练数据与实际测试环境中混合语音的分布往往存在差异,导致模型泛化能力较弱
- 生成过程复杂:监督学习方法需要生成多种噪声类型和不同混响条件下的合成数据,这样的准备过程耗时且不够灵活
- 无监督学习的挑战
- 任务的不适定性(ill-posedness):对于单通道输入,观察到的混合信号远少于需要分离的声源信号数量,因此难以直接分离
- 监督缺失
没有明确的目标来指导模型学习什么是“理想的”声源信号
人类和监督学习模型可以通过比较输出和目标信号来判定分离质量,但无监督模型缺乏这种能力。
研究动机
- 过确定条件下(麦克风数量多于声源数量),可以通过约束条件使问题转化为适定问题(Well-posed problem),从而获得唯一的分离解
- 利用多麦克风混合信号的物理约束作为一种监督机制,引导模型学习分离目标
- 设计合适的损失函数来激励模型分离性能,克服无监督学习中的“监督缺失”问题
研究目标
- 核心问题:如何设计一种方法,使得模型能够在无监督条件下利用多麦克风混合信号完成语音分离?
- 无监督语音分离的关键:设计一个聪明的supervision,可以告诉模型所需的声音对象是什么,如果模型的输出不好,则惩罚模型,否则奖励模型
- 研究方案:提出一种新的无监督语音分离方法(UNSSOR),通过构建物理约束和巧妙的损失函数,直接在混合信号上进行训练,同时兼顾过确定和欠确定场景。
- 方案思路:
在多麦克风的over-determined 情况下,麦克风的数量超过声源的数量,ill-posed problem可以变成一个well-posed problem,其中存在声源的唯一解(up to speaker permutation)
这个well-posed 属性(存在唯一的解决方案)可以用作监督器(或正则化器)来设计损失函数,该函数可以告知无监督分离模型所需的声音对象是什么,并促进声源的分离。
本文贡献
- 我们在 每个麦克风对 的每个说话人的 混响图像之间 强制执行 线性滤波器约束,将病态问题转化为可以促进说话人分离的适态问题
- 我们将无监督神经语音分离表述为盲解卷积问题,其中说话人图像和线性滤波器都需要估计。我们设计了由盲反卷积问题驱动的损失函数,并提出了一种 DNN 方法来优化损失函数,其中说话人图像通过 DNN 估计,线性滤波器通过名为 FCP 的子带线性预测算法基于混合和 DNN 估计
- 我们提出了一个损失项,它最小化一个名为 intra-source magnitude scattering 的度量,以解决使用子带 FCP 时出现的频率排列问题。
- 基于超定训练混合,可以训练 UNSSOR 执行欠定分离(例如,单耳无监督语音分离)
2. 相关工作
语音分离领域研究现状
无监督神经分离方法
-
MixIT(Mixture Invariant Training)
- MixIT是一种无监督分离方法,通过合成的“混合语音的混合”来训练深度神经网络(DNN)。
- 方法:
- 将现有两种混合信号(mixtures)进一步混合,生成新的混合语音,作为训练输入。
- DNN网络的目标是将混合的混合分离成两组信号,每组中分离的来源可以相加为两个现有来源之一混合物(用于混合)。
- 局限性:
- 如果现有的混合信号具有相似特性(例如,房间的混响模式相同),会干扰分离结果。
- 对多通道输入的处理复杂,特别是当混合信号来自不同设备(麦克风几何和数量不同)时。
- 生成的合成混合信号可能与实际环境不匹配。
-
RAS(Reverberation as Supervision)
- RAS方法使用混响作为监督信号,用于在单通道输入下分离双人语音。
- 直接在现有混合物上训练无监督神经分离模型而不是在混合物的合成混合物上训练无监督神经分离模型来避免上述问题
- 方案
- 直接在左耳混合器上执行幅度域单耳分离
- 然后通过时域Wiener滤波对估计值进行线性过滤,以便过滤后的估计值可以近似右耳混合
- 特点:
- 本质是单耳分离
- 通过线性滤波将单通道分离结果调整为与另一个麦克风信号一致。
- 在半监督设置下有效,但在完全无监督环境中失败。
- UNSSOR改进:
- UNSSOR避免了RAS完全依赖监督学习初始化的局限,能在完全无监督设置下实现分离。
-
传统无监督算法:
- 独立成分分析(ICA)、独立向量分析(IVA)、空间聚类等:
- 基于统计方法,如方向统计或信号的空间特性,进行无监督分离。
- 这些方法通常基于单次测试混合信号,未利用大规模数据进行模式学习。(而 UNSSOR 利用 DNN 通过无监督学习对语音模式进行建模,这可能会产生更好的分离)
- 局限性:
- 性能依赖输入信号的假设(如高斯分布等)。
- 不支持单通道欠确定分离。
- 独立成分分析(ICA)、独立向量分析(IVA)、空间聚类等:
-
DNN的伪标签学习:
- 利用传统信号处理算法(如空间聚类和盲源分离BSS)生成伪标签,然后用DNN拟合这些伪标签。
- 局限性:
- 伪标签本身的分离质量可能较差,导致DNN性能受限。
-
基于统计模型的分离:
- 使用统计分布(如高斯分布)来建模分离信号的概率,最大化观测混合信号的似然。
- 局限性:
- 需要在运行时迭代估计信号统计,计算成本高。
- 主要用于幅度估计,而相位估计依赖传统的空间滤波。
UNSSOR的优越性
- 避免合成数据问题:直接在原始混合信号上进行训练,而不是依赖“混合的混合”。
- 高效利用多麦克风数据:通过构建多通道损失函数,引导模型学习语音分离。
- 联合学习频率信息:解决了传统频率域方法中频率置换问题。
3. Problem formulation
混合语音的物理模型
给定P混响条件下与C声源的麦克风混合,可以使用STFT域中的线性方程组来表示物理模型:
Y
p
(
t
,
f
)
=
∑
c
=
1
C
X
p
(
c
,
t
,
f
)
+
ε
p
(
t
,
f
)
,
f
o
r
p
∈
{
1
,
.
.
.
,
P
}
\begin{equation} Y_p(t,f) = \sum_{c=1}^C X_p(c,t,f)+\varepsilon_p(t,f), \ for \ p \in \{1,...,P\} \end{equation}
Yp(t,f)=c=1∑CXp(c,t,f)+εp(t,f), for p∈{1,...,P}
Y
p
(
t
,
f
)
Y_p(t,f)
Yp(t,f):麦克风p在时间t和频率f下的混合信号
X
p
(
c
,
t
,
f
)
X_p(c,t,f)
Xp(c,t,f):麦克风p接收到的第c个声源的混响图像
ε
p
(
t
,
f
)
\varepsilon_p (t,f)
εp(t,f) :背景噪声(假设弱且平稳,如 时间不变的高斯噪声 或 简单的建模误差),是背景噪声的STFT系数
任务目标:以无监督的方式,在给定输入混合物的情况下,估计每个说话人在参考麦克风出的图像
- 欠确定问题
- 仅以来观察到的混合信号进行分离是一个病态问题(ill-posed problem)原因在于:
- 未知数的数量: T × F × P × C T \times F \times P \times C T×F×P×C(时频点、麦克风和声源的联合变量)(每个 X p ( c , t , f ) X_p(c,t,f) Xp(c,t,f)方程都有一个未知数)
- 方程的数量: T × F × P T\times F \times P T×F×P (每个方程都有一个混合观测 Y p ( t , f ) Y_p(t,f) Yp(t,f)值)
- 当麦克风的数量P < 声源数量C时,解的数量时无限的
- 仅以来观察到的混合信号进行分离是一个病态问题(ill-posed problem)原因在于:
关键约束——线性卷积约束
为了解决欠确定问题,文中利用了一个物理约束——线性卷积约束:
-由于
X
1
(
c
)
和
X
p
(
c
)
X_1(c)和X_p(c)
X1(c)和Xp(c)都是声源c干信号的卷积版本,故他们之间存在一个线性滤波器,
X
1
(
c
)
X_1(c)
X1(c)因此与滤波器进行卷积将再现
X
p
(
c
)
X_p(c)
Xp(c)
- 对于每个声源c,其参考麦克风
X
1
(
c
)
X_1(c)
X1(c)与其他麦克风收到的混响图像
X
p
(
c
)
X_p(c)
Xp(c)存在线性卷积关系:
X p ( c , t , f ) = g p ( c , f ) H X ~ 1 ( c , t , f ) X_p(c,t,f) = g_p(c,f)^H\widetilde{X}_1(c,t,f) Xp(c,t,f)=gp(c,f)HX 1(c,t,f)-
g p ( c , f ) g_p(c,f) gp(c,f):将 X 1 ( c ) X_1(c) X1(c)转换为 X p ( c ) X_p(c) Xp(c)的相对房间脉冲响应(RIP),表示将参考麦克风的信号 X 1 ( c ) X_1(c) X1(c)转换到其他麦克风信号的滤波器
-
X ~ 1 ( c , t , f ) \widetilde{X}_1(c,t,f) X 1(c,t,f):时间窗内的 X 1 ( c ) X_1(c) X1(c)的拼接向量,用于建模,定义为: X ~ 1 ( c , t , f ) = [ X 1 ( c , t − A , f ) , . . . , X 1 ( c , t , f ) , . . . , X 1 ( c , t + B , f ) ] T ∈ C A + B + 1 \widetilde{X}_1(c,t,f)=[X_1(c,t-A,f), ... ,X_1(c,t,f),...,X_1(c,t+B,f)]^T \in \mathbb{C}^{A+B+1} X 1(c,t,f)=[X1(c,t−A,f),...,X1(c,t,f),...,X1(c,t+B,f)]T∈CA+B+1,堆叠了一个T-F单位的E=A+B+1窗口
-
( ⋅ ) H (⋅)^H (⋅)H:计算厄米特转置
-
- 这一卷积关系基于房间的声学特性,假设信号从声源到不同麦克风经过了不同的滤波效应
- 通过引入这一卷积关系,可以显著减少未知变量的数量,从而将问题从前问题转为过确定(over-determined),即麦克风数量P>C时有唯一解
重新建模
- 将所有麦克风信号联合表示,并针对参考麦克风
(
p
=
1
)
(p=1)
(p=1)和其他麦克风
(
p
≥
2
)
(p\geq2)
(p≥2)分别建模:
(这里参考麦克风的信号直接由各个声源的混响图像叠加而成)
Y 1 ( t , f ) = ∑ c = 1 C X 1 ( c , t , f ) + ε 1 ( t , f ) , Y p ( t , f ) = ∑ c = 1 C g p ( c , f ) H X ~ 1 ( c , t , f ) + ε p ′ ( t , f ) , f o r p ∈ { 2 , . . . P } \begin{equation} \begin{split} Y_1(t,f) = & \sum_{c=1}^C X_1(c,t,f)+\varepsilon_1(t,f), \\ Y_p(t,f) = & \sum_{c=1}^C g_p(c,f)^H \widetilde{X}_1(c,t,f)+\varepsilon^{'}_p(t,f), \ for \ p \in \{2,...P\} \end{split} \end{equation} Y1(t,f)=Yp(t,f)=c=1∑CX1(c,t,f)+ε1(t,f),c=1∑Cgp(c,f)HX 1(c,t,f)+εp′(t,f), for p∈{2,...P}
通过约束 g p ( c , f ) 和 X ~ 1 ( c , t , f ) g_p(c,f)和\widetilde{X}_1(c,t,f) gp(c,f)和X 1(c,t,f),将未知变量减少为:- T × F × C T \times F\times C T×F×C(参考麦克风的声源变量)
- F × ( P − 1 ) × E × C F \times (P-1) \times E \times C F×(P−1)×E×C(相对 RIR 的参数),其中 E E E是相对RIP的长度
- 若输入混合信号足够长,则方程数量 T × F × C T \times F\times C T×F×C可能超过未知数数量,实现可解性
- 此约束将未知数的数量降为
T
×
F
×
C
+
F
×
(
P
−
1
)
×
E
×
C
T\times F \times C+F\times (P-1)\times E\times C
T×F×C+F×(P−1)×E×C
- 当P>C(即超定条件)和T足够大(即输入混合相当长)时,它可以小于方程的数量(即 T × F × P T \times F \times P T×F×P)
- 该公式表明
- 公式(1)存在一个分离解,它与上述线性系统最一致
- 约束引导的分离机制:在超确定的情况下,可以以无监督的方式估计说话人图像
- 每个麦克风接收到的信号可以通过参考麦克风信号和相对RIR进行推导
- 在无监督学习中,可以利用这些约束设计损失函数(如混合约束损失,Mixture-Constraint Loss)
目标函数——盲卷积问题
因为假设
ε
\varepsilon
ε是weak、time-invariant、Gaussian,找到解的一种方法是通过解决以下问题来计算与公式2中的线性系统最一致的估计值:
arg
min
g
.
(
⋅
,
⋅
)
,
X
1
(
⋅
,
⋅
,
⋅
)
∑
t
,
f
∣
Y
1
(
t
,
f
)
−
∑
c
=
1
C
X
1
(
c
,
t
,
f
)
∣
2
+
∑
p
=
2
P
∑
t
,
f
∣
Y
p
(
t
,
f
)
−
∑
c
=
1
C
g
p
(
c
,
f
)
H
X
~
1
(
c
,
t
,
f
)
∣
2
\begin{equation} \mathop{\arg\min}\limits_{g_.(\cdot,\cdot),X_1(\cdot,\cdot,\cdot)} \mathop{\sum}\limits_{t,f} |Y_1(t,f)-\mathop{\sum}\limits_{c=1}^C X_1(c,t,f)|^2 \ \ + \ \ \mathop{\sum}\limits_{p=2}^P \mathop{\sum}\limits_{t,f} |Y_p(t,f) - \mathop{\sum}_{c=1}^Cg_p(c,f)^H\widetilde{X}_1(c,t,f)|^2 \end{equation}
g.(⋅,⋅),X1(⋅,⋅,⋅)argmint,f∑∣Y1(t,f)−c=1∑CX1(c,t,f)∣2 + p=2∑Pt,f∑∣Yp(t,f)−∑c=1Cgp(c,f)HX
1(c,t,f)∣2
- 盲卷积问题
- 本质上是非凸的
- 若不假设相对RIP或说话人图像有先验知识,很难解决,因为都未知
(下节提出一种基于DNN的方法,通过无监督对语音模式建模,解决这个问题)
4. Method
- DNN将所有P麦克风或参考麦克风1的混合作为输入,为每个声源c生成一个中间估计 Z ^ ( c ) \hat{Z}(c) Z^(c)值
- 在每个麦克风p上的
Z
^
(
c
)
\hat{Z}(c)
Z^(c)执行FCP以计算线性滤波结果,表示为
X
^
p
F
C
P
(
c
)
\hat{X}_p^{FCP}(c)
X^pFCP(c)
(他本质上是对说话人图像 X p ( c ) X_p(c) Xp(c)的估计) - 计算并组合两个损失函数以进行DNN训练
4.1 DNN配置
- UNSSOR 图解(假设训练期间为P>C)
- 输入特征
混合信号的复数频域表示:将混合语音信号的实部和虚部(RI)分别堆叠,作为输入特征,以预测 Z ^ ( c ) \hat{Z}(c) Z^(c)的RI部分
每个说话人的中间估计 Z ^ ( c ) \hat{Z}(c) Z^(c)值是通过复谱映射获得的 - 输出目标
预测每个说话者的中间估计信号,包括其复数表示的实部和虚部
4.2 过滤估计值的混合约束损失 Mixture-constraint loss on filtered estimates
根据公式(3),文章提出混合约束(MC,Mixture-constraint)损失:
L
M
C
=
α
1
∑
t
,
f
F
(
Y
1
(
t
,
f
)
,
∑
c
=
1
C
Z
^
(
c
,
t
,
f
)
)
+
∑
p
=
2
P
α
p
∑
t
,
f
F
(
Y
p
(
t
,
f
)
,
∑
c
=
1
C
g
^
p
(
c
,
f
)
H
Z
^
~
(
c
,
t
,
f
)
)
\begin{equation} L_{MC} = \alpha_1\sum_{t,f} ℱ(Y_1(t,f), \mathop{\sum}\limits_{c=1}^ C\hat{Z}(c,t,f))+\mathop{\sum}\limits_{p=2}^P \alpha_p \mathop{\sum}\limits_{t,f} ℱ(Y_p(t,f),\mathop{\sum}\limits_{c=1}^C \hat{g}_p(c,f)^H \widetilde{\hat{Z}}(c,t,f)) \end{equation}
LMC=α1t,f∑F(Y1(t,f),c=1∑CZ^(c,t,f))+p=2∑Pαpt,f∑F(Yp(t,f),c=1∑Cg^p(c,f)HZ^
(c,t,f))
- 式中:
- Z ^ ~ ( c , t , f ) \widetilde{\hat{Z}}(c,t,f) Z^ (c,t,f)围绕 Z ^ ( c , t , f ) \hat{Z}(c,t,f) Z^(c,t,f)堆叠一个T-F单元窗口,$$
- g ^ p ( c , f ) \hat{g}_p(c,f) g^p(c,f):通过FCP根据混合物 Y p ( ⋅ , f ) Y_p(\cdot, f) Yp(⋅,f)和 Z ^ ( c , ⋅ , f ) \hat{Z}(c,\cdot,f) Z^(c,⋅,f)估计相对RIP
- α p ∈ R \alpha_p \in \mathbb{R} αp∈R:麦克风p的加权项
- g p ( c ) g_p(c) gp(c):FCP计算的线性滤波器
- F ( ⋅ , ⋅ ) ℱ(\cdot , \cdot) F(⋅,⋅):绝对误差的加权损失函数
-
F
(
⋅
,
⋅
)
ℱ(\cdot,\cdot)
F(⋅,⋅):计算估计RI分量的绝对损失及其幅度:
F ( Y p ( t , f ) , Y ^ p ( t , f ) ) = 1 ∑ t ′ , f ′ ∣ Y p ( t ′ , f ′ ) ∣ ( ∣ R e ( Y p ( t , f ) ) − R e ( Y ^ p ( t , f ) ) ∣ ) + ∣ I m ( Y p ( t , f ) − I m ( Y ^ p ( t , f ) ∣ + ∣ ∣ Y p ( t , f ) ∣ − ∣ Y ^ p ( t , f ) ∣ ∣ ) \begin{equation} ℱ(Y_p(t,f), \hat{Y}_p(t,f)) = \frac{1}{\sum_{t',f'} |Y_p(t',f')|} (|Re(Y_p(t,f)) - Re(\hat{Y}_p(t,f))|) + |Im(Y_p(t,f) - Im(\hat{Y}_p(t,f)| + ||Y_p(t,f)|-|\hat{Y}_p(t,f)||) \end{equation} F(Yp(t,f),Y^p(t,f))=∑t′,f′∣Yp(t′,f′)∣1(∣Re(Yp(t,f))−Re(Y^p(t,f))∣)+∣Im(Yp(t,f)−Im(Y^p(t,f)∣+∣∣Yp(t,f)∣−∣Y^p(t,f)∣∣)
Re()、Im():提取RI组件
∣ ⋅ ∣ |\cdot| ∣⋅∣:计算大小
1 ∑ t ′ , f ′ ∣ Y p ( t ′ , f ′ ) ∣ \frac{1}{\sum_{t',f'} |Y_p(t',f')|} ∑t′,f′∣Yp(t′,f′)∣1:平衡了不同麦克风和训练混合物的损耗 - 目标:通过最小化损失函数 L M C L_{MC} LMC,促进DNN对说话者分离的学习(Section.3有提,看附录B)
4.3用于相对 RIR 估计的 FCP
计算
L
M
C
L_{MC}
LMC,首先要估计每个相对RIP
g
^
p
(
c
,
f
)
\hat{g}_p(c,f)
g^p(c,f)
有研究提出FCP来估计将直接路径信号与混响图像相关的RIP,以实现语音混响消除
- FCP作用:
- 通过滤波中间估计信号 Z ( c ) Z(c) Z(c),生成每个声源在各麦克风的分离结恶果
- 这些结果用于进一步优化混合约束损失
这里使用FCP 来估计 与每个麦克风p捕获的说话人图像相关的 Z ^ ( c ) \hat{Z}(c) Z^(c) 相对RIP(即 X p ( c ) X_p(c) Xp(c))
- 设声源不移动,估计相对RIP:
g ^ p ( c , f ) = a r g m i n g p ( c , f ) ∑ t 1 λ ^ p ( c , t , f ) ∣ Y p ( t , f ) − g p ( c , f ) H Z ^ ~ ( c , t , f ) ∣ 2 \begin{equation} \hat{g}_p(c,f) = \mathop{arg min}\limits_{g_p(c,f)} \sum_t \frac{1}{\hat{\lambda}_p(c,t,f)} |Y_p(t,f)-g_p(c,f)^H \widetilde{\hat{Z}}(c,t,f)|^2 \end{equation} g^p(c,f)=gp(c,f)argmint∑λ^p(c,t,f)1∣Yp(t,f)−gp(c,f)HZ^ (c,t,f)∣2- λ p ( c , t , f ) \lambda_p(c,t,f) λp(c,t,f):加权系数,平衡时间-频率单元的重要性,有定义
-
g
p
(
c
,
f
)
∈
C
I
+
1
+
J
g_p(c,f) \in \mathbb{C}^{I+1+J}
gp(c,f)∈CI+1+J:是K-tap(K=I+1+)time-invariant FCP滤波器
- 由于滤波器抽头的实际数量是位置的,故将他们设置为I和J(都是要调整的超参数)
- 是一个加权线性回归问题,可以很容易计算出一个闭式解
g ^ p ( c , f ) = ( ∑ t 1 λ ^ p ( c , t , f ) Z ^ ~ ( c , t , f ) Z ^ ~ ( c , t , f ) H ) − 1 ∑ t 1 λ ^ p ( c , t , f ) Z ^ ~ ( c , t , f ) ( Y p ( t , f ) ) ∗ \begin{equation} \hat{\mathbf{g}}_p(c,f) = \left( \sum_{t} \frac{1}{\hat{\lambda}_p(c,t,f)} \widetilde{\hat{\mathbf{Z}}}(c,t,f) \widetilde{\hat{\mathbf{Z}}}(c,t,f)^{\mathsf{H}} \right)^{-1} \sum_{t} \frac{1}{\hat{\lambda}_p(c,t,f)} \widetilde{\hat{\mathbf{Z}}}(c,t,f) (Y_p(t,f))^{*} \end{equation} g^p(c,f)=(t∑λ^p(c,t,f)1Z^ (c,t,f)Z^ (c,t,f)H)−1t∑λ^p(c,t,f)1Z^ (c,t,f)(Yp(t,f))∗
( ⋅ ) ∗ (\cdot)^* (⋅)∗计算复共轭
将其带入公式(4),计算损失
- 计算相对RIP,理想情况下应该过滤 Z ^ ( c ) \hat{Z}(c) Z^(c)为近似 X p ( c ) X_p(c) Xp(c)值(即用 X p ( c ) X_p(c) Xp(c)替换(6)中的 Y p Y_p Yp),但是 X p ( c ) X_p(c) Xp(c)未知故在(6)中,改为线性过滤 Z ^ ( c ) \hat{Z}(c) Z^(c)为近似 Y p Y_p Yp
- 前期研究表明,若 X p ( c , t , f ) Z ^ ( c ) X_p(c,t,f)\hat{Z}(c) Xp(c,t,f)Z^(c)合理, g ^ p ( c , f ) H Z ^ ~ ( c , t , f ) \hat{\mathbf{g}}_p(c,f)^H\widetilde{\hat{\mathbf{Z}}}(c,t,f) g^p(c,f)HZ^ (c,t,f)可以作为 X p ( c , t , f ) X_p(c,t,f) Xp(c,t,f)的估计值
- 以这种方式估计的说话人图像为FCP估计图像:
X ^ p F C P = g ^ p ( c , f ) H Z ^ ~ ( c , t , f ) \begin{equation} \hat{X}_p^{FCP} = \hat{\mathbf{g}}_p(c,f)^H\widetilde{\hat{\mathbf{Z}}}(c,t,f) \end{equation} X^pFCP=g^p(c,f)HZ^ (c,t,f)
由此可以合理总结所有说话人的 FCP 估计图像,并定义求和之间的损失, Y p Y_p Yp如公式4所示
4.4 时间对齐问题和替代损失函数
背景问题
公式4的损失函数存在问题:
- 时间对齐问题
- 参考麦克风(通常为第一个麦克风)记录的混合信号与其他麦克风记录的信号之间可能存在时间差。
- 如果目标说话者离参考麦克风较远,DNN的中间估计信号可能无法很好地与其他麦克风的信号对齐。
- 不合适的时间对齐可能影响分离精度。
- 非因果滤波器的局限性
- 在分离过程中,可能需要对信号进行非因果滤波(包括过去和未来的信号)。
- 非因果滤波可能会限制网络的分离能力,尤其是在一些麦克风信号本应符合因果关系的情况下。
解决方案
- 改进的混合约束损失
L
M
C
L_{MC}
LMC
- 在原有混合约束损失函数中,DNN输出在参考麦克风的估计信号 Z© 不经过滤波,直接与参考麦克风的混合信号 Y 1 Y_1 Y1比较
- 改进方案
- 对所有麦克风信号(包括参考麦克风的信号)均引入线性滤波器
g
^
p
(
c
,
f
)
\hat{g}_p(c,f)
g^p(c,f)
L M C = ∑ p = 1 P α p L M C , p = ∑ p = 1 P α p ∑ t , f F ( Y p ( t , f ) , ∑ c = 1 C g ^ p ( c , f ) H Z ^ ~ ( c , t , f ) ) \begin{equation} L_{MC} =\mathop{\sum}\limits_{p=1}^P \alpha_p L_{MC,p} = \mathop{\sum}\limits_{p=1}^P\alpha_p\mathop{\sum}\limits_{t,f}ℱ(Y_p(t,f), \mathop{\sum}\limits_{c=1}^C \hat{g}_p(c,f)^H\widetilde{\hat{Z}}(c,t,f)) \end{equation} LMC=p=1∑PαpLMC,p=p=1∑Pαpt,f∑F(Yp(t,f),c=1∑Cg^p(c,f)HZ^ (c,t,f))- g ^ p ( c , f ) \hat{g}_p(c,f) g^p(c,f):为第p个麦克风估计的因果滤波器
- Z ^ ~ ( c , t , f ) \widetilde{\hat{Z}}(c,t,f) Z^ (c,t,f): 仅堆叠当前和过去的帧(这样 Z ^ ( c ) \hat{Z}(c) Z^(c)就不会与在参考麦克风(即 X 1 ( c ) X_1(c) X1(c))或其他非参考麦克风上捕获的参考图像进行时间对齐
- 对所有麦克风信号(包括参考麦克风的信号)均引入线性滤波器
g
^
p
(
c
,
f
)
\hat{g}_p(c,f)
g^p(c,f)
- 因果性约束
- 通过设计因果滤波器(仅考虑当前及过去帧)确保滤波操作满足物理现实
- 这样,DNN的中间估计 Z ^ ( c ) \hat{Z}(c) Z^(c)不需要与参考麦克风信号时间对齐
-
Z
^
(
c
)
\hat{Z}(c)
Z^(c)更像是由比所有麦克风P更靠近声源c的虚拟麦克风捕获的混响图像的估计值
由于因果滤波,他包含的声源c混响比P麦克风捕获的任何声源图像都要少
- 分离结果输出
- 为了生成与麦克风上的混响图像(如 X p ( c ) X_p(c) Xp(c))时间对齐的估计值,使用公式8中计算的FCP估计图像(即 X ^ p F C P ( c ) \hat{X}_p^{FCP}(c) X^pFCP(c))作为输出
4.5 解决频率排列问题
在公式4和9的两个
L
M
C
L_{MC}
LMC中,FCP 在每个频率中独立于其他频率执行
频率排列问题:即使声源在每个频率上是分开的,但同一说话人在不同频率上的分离结果可能不会被分组到相同的输出频谱图中
频率排列问题的背景:
- 在频域进行语音分离时,不同频段可能会出现排列混乱。
- 即,同一个说话者在不同频率上的分离结果可能被分组到不同的输出信号中。
- 这个问题会显著降低分离信号的质量和一致性。
UNSSOR的方法:ISMS损失
为了解决 DNN 输出中的频率排列问题,UNSSOR提出了频内幅度散布损失(Intra-Source Magnitude Scattering,简称ISMS),其核心思路是减少分离结果在频率维度上的不一致性。
- 损失函数公式:
L I S M S = ∑ p = 1 P α p L I S M S , p = ∑ p = 1 P α p ∑ t 1 C ∑ c = 1 C var ( log ( ∣ X ^ p F C P ( c , t , ⋅ ) ∣ ) ) ∑ t v a r ( l o g ( ∣ Y p ( t , ⋅ ) ∣ ) ) , \begin{equation} L_{ISMS} =\mathop{\sum}\limits_{p=1}^P \alpha_p L_{ISMS,p} = \mathop{\sum}\limits_{p=1}^P \alpha_p \frac{\sum_t \frac{1}{C} \sum_{c=1}^C \text{var}(\log(|\hat{X}_p^{FCP}(c, t, \cdot)|))}{\mathop{\sum}\limits_t var(log(|Y_p(t,\cdot)|))} , \end{equation} LISMS=p=1∑PαpLISMS,p=p=1∑Pαpt∑var(log(∣Yp(t,⋅)∣))∑tC1∑c=1Cvar(log(∣X^pFCP(c,t,⋅)∣)),- X ^ p F C P ( c , t , ⋅ ) \hat{X}_p^{FCP}(c, t, \cdot) X^pFCP(c,t,⋅):通过FCP估计的第 p p p 个麦克风的第 c c c 个声源的分离结果,通过公式8中 X ^ p F C P ( c , t , ⋅ ) ∈ C \hat{X}_p^{FCP}(c, t, \cdot) \in \mathbb{C} X^pFCP(c,t,⋅)∈C计算。
- var ( ⋅ ) \text{var}(\cdot) var(⋅):计算信号在频率维度上的方差。
- log ( ∣ ⋅ ∣ ) \log(|\cdot|) log(∣⋅∣):对信号的幅值进行对数变换,有助于满足近似高斯分布的假设。
- P P P:麦克风数, C C C:声源数。
- 公式中用了对数压缩:因为对数压缩的幅度比原始幅度更符合高斯分布
-
核心目标:
- 通过减少每个声源在频率维度上的方差,鼓励分离结果在整个频率范围内保持一致性。
- 这一损失的优化能够显著降低频率排列混乱。
-
理论依据:
- 类似于独立向量分析(IVA)的假设,ISMS损失的设计灵感来自统计建模:
- 假设每一帧的分离结果在所有频率上共享一个分布参数。
若公式10中的比率变小,则表明 X ^ p F C P ( c , t , ⋅ ) \hat{X}_p^{FCP}(c, t, \cdot) X^pFCP(c,t,⋅)量级更以他们的平均值为中心
这类似于优化所有频率共享方差项的 X ^ p F C P ( c , t , ⋅ ) \hat{X}_p^{FCP}(c, t, \cdot) X^pFCP(c,t,⋅)符合高斯分布的可能性
(公式中用了对数压缩,因为对数压缩的幅度比原始幅度更符合高斯分布 ) - 频率排列发生时,
X
^
p
F
C
P
(
c
,
t
,
⋅
)
\hat{X}_p^{FCP}(c, t, \cdot)
X^pFCP(c,t,⋅)将包含多个源,且生成的方差将大于仅包含一个源时
X
^
p
F
C
P
(
c
,
t
,
⋅
)
\hat{X}_p^{FCP}(c, t, \cdot)
X^pFCP(c,t,⋅)计算的方差。
减少频率间的幅度差异能有效解决排列问题。
- 假设每一帧的分离结果在所有频率上共享一个分布参数。
- 类似于独立向量分析(IVA)的假设,ISMS损失的设计灵感来自统计建模:
-
联合
与公式9中的DNN训练结合使用,使用加权项 γ ∈ R γ \in \mathbb{R} γ∈R:
L M C + I S M S = L M C + γ × L I S M S \begin{equation} L_{MC+ISMS} = L_{MC}+γ \times L_{ISMS} \end{equation} LMC+ISMS=LMC+γ×LISMS
与传统方法的对比:
- 传统方法:
- 利用频率间的相关性(如交叉频率相关性)或方向估计进行后处理,但这些方法通常复杂且依赖于额外的设计。
- ISMS的优势:
- 简单高效,直接融入到损失函数中,与神经网络联合优化。
- 无需额外的后处理步骤。
4.6 训练 UNSSOR 进行单耳无监督分离
- 输入信号:仅使用参考麦克风的单通道信号作为DNN输入。
- 训练目标:仍然使用多麦克风的混合信号来计算损失,从而引导DNN学习。(如图1)
- 运行效果:
虽然训练时需要多通道,但UNSSOR在运行时可以实现单通道分离。
在运行时,经过训练的系统执行单耳欠定分离,而多麦克风过定混合物仅用于 DNN 训练。在多个麦克风上计算的损耗可以指导 DNN 利用单耳频谱-时间模式进行分离,即使在无监督设置中也是如此。
5. 实验装置
- 数据集:SMS-WSJ数据集(6通道)
- 算法目标:混响条件下的双声源分离算法(附录A)
5.1 Baselines
为了全面评估UNSSOR的性能,文章选用了以下3种基线方法进行比较:
-
传统的无监督分离算法:
- 空间聚类:使用基于复杂角度-中心高斯混合模型的子带空间聚类方法,并通过跨频率相关性对结果进行频率对齐。(使用了公共实现)
源的数量设置为 3,其中 1 个用于垃圾回收
获得估计值后,我们丢弃能量最低的那个。
STFT 窗口大小调整为 128ms,跃点大小调整为 16 ms - 独立向量分析(IVA):纳入IVA进行比较,使用torchiva提供的公共实现。默认使用球形Laplacian模型处理源分布。对于过确定情况,引入了“垃圾源”以提升性能。
源的数量设置为 3,我们丢弃能量最低的估计值,类似于空间聚类基线中的设置4,STFT 窗口大小调整为 256 ms,跃点大小调整为 32 ms
- 空间聚类:使用基于复杂角度-中心高斯混合模型的子带空间聚类方法,并通过跨频率相关性对结果进行频率对齐。(使用了公共实现)
-
改进的RAS算法(iRAS):
(附录 H 讨论了 UNSSOR 和 RAS 之间的区别)- iRAS是对“使用混响作为监督”算法(RAS)的改进版本,结合了时间域的Wiener滤波,并计算多个麦克风混合信号上的损失。
- iRAS支持全因果和非因果滤波(使用不同滤波器长度)。
- 采用时域维纳滤波 (WF) 技术来过滤重新合成的时域估计
z
^
(
c
)
=
i
S
T
F
T
(
Z
^
(
c
)
)
\hat{z}(c) = iSTFT(\hat{Z}(c))
z^(c)=iSTFT(Z^(c)),其中
Z
^
(
c
)
\hat{Z}(c)
Z^(c)由TF-GridNet 生成。损失定义为:
L iRAS = ∑ p = 1 P α p L iRAS , p = ∑ p = 1 P α p 1 ∥ y p ∥ 1 ∥ y p − ∑ c = 1 C h ^ p ( c ) ∗ z ^ ( c ) ∥ 1 \begin{equation} \mathcal{L}_{\text{iRAS}} = \sum_{p=1}^{P} \alpha_p \mathcal{L}_{\text{iRAS},p} = \sum_{p=1}^{P} \alpha_p \frac{1}{\|y_p\|_1} \left\| y_p - \sum_{c=1}^{C} \hat{h}_p(c) * \hat{z}(c) \right\|_1 \end{equation} LiRAS=p=1∑PαpLiRAS,p=p=1∑Pαp∥yp∥11 yp−c=1∑Ch^p(c)∗z^(c) 1- ∗ * ∗:线性卷积
- y p y_p yp:麦克风p处的时域混合
-
h
^
p
(
c
)
\hat{h}_p(c)
h^p(c):通过求解一下问题计算的时域Wiener滤波器
h ^ p ( c ) = argmin h p ( c ) ∥ y p − h p ( c ) ∗ z ^ ( c ) ∥ 2 2 \begin{equation} \hat{h}_p(c) = \text{argmin}_{h_p(c)} \left\| y_p - h_p(c) * \hat{z}(c) \right\|_2^2 \end{equation} h^p(c)=argminhp(c)∥yp−hp(c)∗z^(c)∥22
-
MixIT:
- 这种无监督分离方法使用合成的“混合信号的混合”作为训练数据。
-
监督学习模型:
- 使用PIT(Permutation Invariant Training)作为监督模型的上限参考,其性能视为无监督方法的理论目标。
-
系统一致性:
- 基线方法和UNSSOR使用相同的深度神经网络(TF-GridNet)架构和训练配置,以确保公平对比。
5.2 评估设置和指标
- 麦克风设置:
- 在实验中,使用了SMS-WSJ多通道语音数据集,包含6个麦克风。
- 指定第一个麦克风作为参考麦克风,并将其信号作为用于计算评估指标的目标信号,使用每个声源c对应的 X 1 ( c ) X_1(c) X1(c)时域信号进行度量计算。
- 评估指标:
- 信号失真比(SDR):衡量预测信号与目标信号的相似性,值越高越好。
- 规模不变信号失真比(SI-SDR):去掉幅值依赖性的改进版SDR。
- 语音质量感知评估(PESQ):用于评估分离语音的质量。
- 扩展短时客观可懂度(eSTOI):评估语音的可懂度。
6. 评估结果
6.1 UNSSOR的分离效果
- 使用6个麦克风输入和损失计算,UNSSOR在无监督条件下实现了显著的分离效果。
- 例如,在验证集上的信号失真比(SDR)从混合语音的0.1 dB提升至12.5 dB(表1,第1a行)。
- 但是,由于频率置换问题,分离效果受限:
- 当使用频率对齐后(例如基于频率相关性或oracle对齐),SDR可进一步提升到15.7 dB或15.8 dB(表1,第1b和1c行)。
6.2 ISMS损失在解决频率置换问题上的效果
- 使用公式11中定义的 L M C + I S M S L_{MC+ISMS} LMC+ISMS中定义的DNN训练DNN
- 为了解决频率置换问题,作者将ISMS损失与混合约束损失(LMC)结合。
- 在实验中,UNSSOR通过优化ISMS损失,自动学习解决频率置换问题的能力:
- 例如,在6麦克风设置下,包含ISMS的模型(表1,第2a行)和oracle频率对齐的结果(表1,第2c行)几乎相当(SDR为15.6 dB)。
- ISMS损失能够有效减少跨频率的声源交换问题,同时不依赖复杂的后处理算法。
6.3 单通道分离实验
- UNSSOR还在欠确定条件下进行了测试(即仅使用一个麦克风作为输入),但仍使用多麦克风信号来计算训练损失。
- 结果:
- 在单通道输入+6通道损失的情况下,验证集SDR达到了13.0 dB(表3,第1a行),表明UNSSOR能有效利用多通道信息指导单通道输入的分离学习。
- 单通道输入+3通道损失的结果稍差(SDR为12.5 dB),表明更多麦克风作为训练约束会提高分离性能。
6.4 与其他方法的比较
-
无监督分离方法:
- UNSSOR显著优于传统无监督方法,如:
- 空间聚类(Spatial Clustering):SDR为8.6 dB。
- 独立向量分析(IVA):SDR为10.6 dB。
- 改进的RAS算法(iRAS):SDR为7.8 dB。
- UNSSOR的强性能归因于其对混合约束和频率置换问题的联合优化。
- UNSSOR显著优于传统无监督方法,如:
-
监督学习方法:
- 与监督学习模型(例如PIT)相比,UNSSOR的性能稍逊一筹(SDR为15.6 dB vs 16.8 dB),但无需标注数据。
6.5局限性 Limitations
- 研究表明 UNSSOR 在无监督语音分离方面具有巨大潜力。然而,在未来的研究中,我们需要解决几个弱点
- 我们假设源是定向点源,因此可以使用短滤波器对每个相对 RIR 进行建模,并且不考虑漫射源。
- 我们假设每个话语中的源都是不移动的,以便我们可以使用时不变的 FCP 筛选器
- 我们假设源的数量是已知的,并且源是完全重叠的
- 仅考虑测量或建模噪声,不包括具有强能量的真实定向或漫射背景噪声
尽管 IVA、空间聚类、RAS 和 iRAS 等许多算法中也做出了这些假设,但需要解决这些假设才能实现更实用、更健壮的语音分离系统。
8. conclusion
-
方法创新:
- 提出了UNSSOR(Unsupervised Neural Speech Separation by Leveraging Over-determined Training Mixtures),一种新颖的无监督语音分离算法。
- 利用了过确定条件(麦克风数量多于声源数量)的特点,将语音分离问题转化为可解问题。
- 通过设计混合约束(Mixture-Constraint)损失函数,引导深度神经网络(DNN)学习语音模式,实现了无监督语音分离。
-
频率置换问题的解决:
- 使用了基于频率内源散射(Intra-Source Magnitude Scattering, ISMS)的损失函数,显著缓解了频率置换问题,提升了分离效果。
-
在欠确定情况下的应用:
- 尽管训练过程需要过确定的混合信号,UNSSOR经过训练后能够用于欠确定条件(例如单通道语音分离)的无监督分离。
- 科学贡献:
文章强调了一个重要的科学贡献:- 过确定条件的启发:麦克风多于声源所提供的过度确定属性可以将解决方案缩小到底层来源,并且可以利用这一属性来设计监督,以训练 DNN 通过无监督学习对语音模式进行建模并实现无监督分离
这一特性可以作为监督信号来训练深度神经网络,帮助其学习语音模式并实现无监督语音分离。 - 通用性:这一思路不仅适用于语音分离,还可能激发未来在神经源分离领域的算法设计。
- 过确定条件的启发:麦克风多于声源所提供的过度确定属性可以将解决方案缩小到底层来源,并且可以利用这一属性来设计监督,以训练 DNN 通过无监督学习对语音模式进行建模并实现无监督分离
附录
(后续再更)