bf的构造
- 根据方向得到的导向向量构造类似于w=[ejwτ1ejwτ2ejwτ3...]w=[e^{jw\tau1} \quad e^{jw\tau2} \quad e^{jw\tau3}...]w=[ejwτ1ejwτ2ejwτ3...],得到y=wHxy=w^Hxy=wHx。
- 根据ratio of transfer function构造得到类似于w=[w1w2w3]w=[w_1 \quad w_2 \quad w_3]w=[w1w2w3],得到y=wHxy=w^Hxy=wHx。
bf构造的核心在于w*a=1,其中a为期望信号的传递函数。也就是说波束路首先需要的是保语音,至于去噪能力,能有多少就是多少了,而w的构造,只要满足如上关系都可以。 不同的w有不同的噪声的抑制能力。如果可以实现min(wHRnw)min(w^HR_nw)min(wHRnw)当然是更好的,这不就是一个mvdr了嘛。
bm的意义和构造方式
bm路是消掉语音后的噪声/干扰信号,然后再基于bm数据做anc和主通路的噪声实现对消。其实如果对于anc路的控制比较好的话是不需要在bm路先消除掉语音的,但为什么对于bm是一个强需求呢?
- bm路和bf过完anc后的数据方便进行后处理,这是我认为最有价值的地方。
- bf路和mic数据在控制好的情况下也能够实现anc不消语音,但和直接bm路消除完语音后再anc,存在显式bm有助于降低anc伤语音的压力,而且因为大多数情况下期望信号符合点源假设,BM是比较容易实现的。
bm路需要达到的效果是:要求对期望语音信号消除,对噪声部分没有要求。 通过构造:
U=I−awHaHw,其中aHw=1U=I-\frac{aw^H}{a^Hw},其中a^Hw=1U=I−aHwawH,其中aHw=1,a为ratio of transfer function,www为波束路的滤波器系数(可以是任意方法得到的),UUU即为阻塞矩阵。
如上后满足:[U1,U2,U...]HRsw=[0,0,0..]H[U_1,U_2,U_...]^HR_sw=[0,0,0..]^H[U1,U2,U...]HRsw=[0,0,0..]H,其中Rs=aaHR_s=aa^HRs=aaH。
如何证明如上等式成立?我们对简单的二维情况进行验证,a=[a1a2a_1 \quad a_2a1a2],w=[w1w2w_1 \quad w_2w1w2]。则有:
aHw∗U=[aHw∗I−awH]=(a2w2−a1w2 −a2w1a1w1)=(w2w1)(a2−a1−a2a1)a^Hw*U=[a^Hw*I-aw^H]=\begin{pmatrix}a_2w_2\quad -a_1w_2\\ \ -a_2w_1 \quad a_1w_1\end{pmatrix}=\begin{pmatrix}w_2\\&w_1\end{pmatrix}\begin{pmatrix}a_2\quad -a_1\\ -a_2 \quad a_1\end{pmatrix}aHw∗U=[aHw∗I−awH]=(a2w2−a1w2 −a2w1a1w1)=(w2w1)(a2−a1−a2a1)
aHw∗U∗Rsw=aHwUaaHw=Ua=[0,0]Ha^Hw*U*R_sw=a^HwUaa^Hw=Ua=[0,0]^HaHw∗U∗Rsw=aHwUaaHw=Ua=[0,0]H
需要指出的是,在a,wa,wa,w确定的情况下上述公式只满足了对RsR_sRs的正交,对于[U1,U2,U...]HRnw[U_1,U_2,U_...]^HR_nw[U1,U2,U...]HRnw是没有要求的,而且只有[U1,U2,U...]HRnw≠0[U_1,U_2,U_...]^HR_nw\neq0[U1,U2,U...]HRnw=0的情况下anc部分才有意义,因为anc只有在bm路和bf路的噪声存在相关情况下才能起到作用。
w为gev/mvdr下的bf和bm
一般的gsc架构的论文都是在ratio of transfer function下作为fix bf,以及以此为基础再进行bm和anc,这种架构的合理性在于bm路保证了阻塞语音(和语音阵正交),bm路和fix_beam路仍然存在噪声的相关(和噪声阵存在相关),anc具有存在的价值。然而在波束和BSS问题中的gevd 中已经讨论过,gev下的w及其构造出来的U满足 [U1,U2,U...]HRnw=0[U_1,U_2,U_...]^HR_nw=0[U1,U2,U...]HRnw=0的关系,如果要实现对gev后结果的anc,需要满足gev后波束的噪声信号和bm路的噪声信号相关,这又和gev构造出来的bm相违背。可尝试的方向是bm部分通过其他方式获得。通过对anc的精准控制,如何不伤语音的实现对gev残留噪声的再滤波。如bm通过U=I−awHaHw,其中aHw=1,w=aU=I-\frac{aw^H}{a^Hw},其中a^Hw=1,w=aU=I−aHwawH,其中aHw=1,w=a来构造,这种情况下[U1,U2,U...]HRnwgev≠0[U_1,U_2,U_...]^HR_nw_{gev}\neq0[U1,U2,U...]HRnwgev=0(这个推论下好像不对)。 当然这种情况下在gev已经实现一遍maxwHRswwHRnwmax\frac {w^HR_sw}{w^HR_nw}maxwHRnwwHRsw后能消多少噪声就另说了。
重新解释一下如上的画线部分,[U1,U2,U...]HRnwgev=[U1,U2,U...]HRswgev=0[U_1,U_2,U_...]^HR_nw_{gev}=[U_1,U_2,U_...]^HR_sw_{gev}=0[U1,U2,U...]HRnwgev=[U1,U2,U...]HRswgev=0恒成立,也就是在gev满足的情况下gev的波束输出噪声和任意的阻塞矩阵输出噪声正交。那么要滤除gev路的噪声只能通过mask控制(mask就看自己怎么想了),阻塞矩阵输出和波束路的语音和噪声都具有了相关性才能实现gev作为fixbeam情况下的anc滤波。也就是阻塞矩阵不阻塞的情况下做anc。

本文探讨了波束形成(bf)和阻塞矩阵(bm)在音频处理中的构建和作用,重点在于语音保真与噪声抑制。bf构造的核心是保持语音信号,同时尽可能减少噪声。bm则是为了消除期望语音后的噪声,通过阻塞矩阵实现与语音信号的正交。在gev/mvdr框架下,波束形成和anc(主动降噪)的结合面临挑战,因为gev构造的波束已消除部分噪声,使得anc的进一步应用变得复杂。文章提出可能的解决方案,包括精确控制anc和探索不同bm构造方式,以实现对gev后噪声的再滤波。
9754

被折叠的 条评论
为什么被折叠?



