基于速率分布空间滤波的无线声学传感器网络降噪
摘要
在无线声学传感器网络(WASNs)中,传感器通常具有有限的能量预算,因为它们通常由电池驱动。因此,能效对于WASNs中的算法设计至关重要。降低能量成本的一种方法是仅选择最具信息量的传感器,这一问题被称为传感器选择。通过这种方法,只有对当前任务有显著贡献的传感器才会被启用。本文考虑一种更为通用的方法,即基于速率分布的空间滤波。根据传输距离的不同,比特率直接影响能量消耗。我们试图在约束降噪性能的前提下,最小化由于传输引起的电池消耗。由此得到一种高效的速率分配策略,该策略依赖于底层的信号统计特性以及传感器到融合中心(FC)的距离。通过使用线性约束最小方差波束成形器,该问题被建模为一个半定规划。此外,我们表明速率分配比传感器选择更具通用性,而传感器选择可视为所提出的速率分配方案的一个特例,例如,可通过对接收的速率进行阈值处理来确定最佳麦克风子集。最后,在无线声学传感器网络中对多个目标源进行估计的数值仿真结果表明,所提出的方法在能量消耗方面优于基于传感器选择的方法,并且我们发现靠近融合中心(FC)和点声源的传感器被分配了更高的速率。
索引术语
速率分配,传感器选择,LCMV波束成形,降噪,能量消耗,稀疏性,无线声学传感器网络。
I. 引言
近年来,无线声学传感器网络(WASNs)引起了越来越多的关注[1]–[3]。与具有固定配置的传统麦克风阵列相比,无线声学传感器网络在阵列尺寸限制和网络可扩展性方面具有优势。在无线声学传感器网络中,每个传感器节点配备有一个单个麦克风或小型麦克风阵列,并且这些节点在特定区域空间分布。由于无线声学传感器网络(WASN)中的麦克风节点可以放置在任意位置,因此声场可以在更大的区域内被采样。有可能部分节点靠近目标源,并具有较高的信噪比(SNR),从而可以获得更高质量的录音。在WASN中,麦克风节点通过无线链路连接到其邻近节点或融合中心(FC),分别形成分布式或集中式框架。在本研究中,我们将主要关注集中式框架,其中每个节点对麦克风录音进行采样和量化,并将其传输到远程融合中心(FC)。感兴趣的处理任务,例如信号估计或双耳线索保持,被认为是在融合中心(FC)处执行的。
在无线声学传感器网络中,每个传感器节点通常由电池供电,具有有限的能量预算。因此,在算法设计中考虑能耗非常重要。一般来说,无线声学传感器网络中的能量消耗与两个过程相关:数据传输和数据处理[4],[5]。数据传输发生在节点与融合中心之间,而数据处理则在融合中心端进行。通常情况下,从能量消耗的角度来看,数据交换比数据处理更耗能。
为了降低无线声学传感器网络中的能量消耗,可以采用两种技术:传感器选择[6]–[12] 和速率分配[13]–[15]。在传感器选择中,通过在约束选定子集基数的同时最大化性能准则,或在约束性能的同时最小化基数,来选择最具信息量的传感器子集。这样,选定子集所包含的传感器数量可以远小于传感器总数,从而实现稀疏选择。由于只有选定的传感器需要将其记录的数据传输到融合中心,因此传感器选择是一种有效节省能量消耗的方法。
与传感器选择相比,速率分配允许更平滑的操作曲线,因为在速率分配中,传感器不仅可以在全速率或零速率(未被选中时)下工作,还可以在任意可能的速率下运行。对于速率分配而言,其思想是将较高的速率分配给信息量更大的传感器,而将较低或零速率分配给其他传感器。在无线传感器网络中,关于信号估计的量化已有大量研究,参见[16],[17]及其参考文献,这些研究通常假设传感器间的测量噪声相互不相关。然而,这类模型并不适用于真实的音频应用,例如语音增强,因为在存在方向性干扰源的情况下,传感器间的噪声通常是相关的。在[14],[18]中,在无线声学传感器网络(WASN)中,研究了比特率约束对降噪的影响。在[13]中,从信息论角度研究了无线助听器(HA)的速率受限的协作噪声抑制,从而提出了一种两个节点之间的信息传输策略。然而,[13]中提出的方法需要完整的双耳统计信息,这在实际应用中难以估计。在[15]中,提出了一种基于所谓信号效用的贪婪量化方法用于语音信号估计,该信号效用实际上表示麦克风录音的重要性。然而,该方法在每次迭代中仅对一个节点增加或减少一位,导致收敛速度较低。
传感器选择与速率分配问题之间的区别在于二元决策与更平滑的决策。给定最大比特率时,传感器选择方法首先选择一个传感器子集,然后选定的传感器以最大速率与融合中心进行通信。也就是说,每个传感器仅对通信速率做出二元决策,即零或最大速率。相比之下,速率分配方法可以在速率上执行多个决策,即比特率可以从零到最大比特率之间的任意分数形式。如果某个传感器被分配了零比特,则该传感器将不会被选中。因此,通常情况下,速率分配方法所得到的无线声学传感器网络不如传感器选择方法得到的网络稀疏,但它们能够更好地降低用于传输的能耗。另一方面,由于传感器选择方法在计算中通常涉及较少的测量数据,因此可以在融合中心端节省更多的数据处理能量消耗。
在本研究中,我们仅考虑数据传输能耗,而忽略其他过程的能量消耗。无线传输功率被视为传感器节点与融合中心之间的距离以及用于量化待传输信号的速率(即每样本比特数)的函数。我们旨在从速率分配的角度出发,降低WASN中基于空间滤波的噪声降低所消耗的能量。通过约束输出噪声功率的性能,最小化总的无线传输成本。利用线性约束最小方差(LCMV)波束成形器,该问题通过凸优化技术求解。在确定比特率后,每个麦克风节点对其录音信号进行均匀量化,并将量化后的数据传输至融合中心,以完成相应的信号处理任务。
A. 贡献
本文的贡献可总结如下。首先,我们通过最小化能量消耗并约束降噪性能,设计了一种用于无线声学传感器网络(WASN)中速率分布LCMV(RD-LCMV)波束成形的速率分配策略。该原始非凸优化问题通过凸松弛技术进行松弛,并重新表述为半定规划。基于在模拟的无线声学传感器网络中的数值结果,我们发现靠近声源(包括目标源和干扰源)以及融合中心(FC)的麦克风节点更有可能被分配更高的比特率。因为它们分别在信噪比方面拥有更多信息且能耗更低。
其次,我们将模型驱动的麦克风子集选择方法从[7]的最小方差无失真响应(MD-MVDR)波束成形器扩展到LCMV波束成形框架(称为MD-LCMV)。通过这种方式,我们发现了速率分配与传感器选择问题之间的联系,即速率分配是传感器选择的推广。在[7]中,通过最小化总传输成本并约束降噪性能来选择最佳麦克风子集,其中每个节点与融合中心之间的传输成本仅被视为距离的函数。所选麦克风将使用最大比特率与融合中心通信。本文方法的能量模型相较于[7]中的模型更为通用。基于所提出的RD-LCMV方法获得的速率,可通过在速率上设置阈值来确定MD-LCMV的最佳麦克风子集,例如选择速率大于该阈值的传感器。
最后,数值仿真表明,通过对RD-LCMV方法的速率进行阈值处理所选择的麦克风子集与直接应用MD-LCMV所选择的麦克风子集完全相同。RD-LCMV和MD-LCMV均能保证给定的性能要求,但RD-LCMV在能效方面表现出更优的性能。
B. 概述和符号表示
本文其余部分组织如下。第二节介绍了信号模型、均匀量化、所用能量模型以及LCMV波束成形的预备知识。第三节给出了RD-LCMV优化的问题表述及求解器。第四节将传感器选择从[7]的最小方差无失真响应波束成形扩展到LCMV波束形成框架,并讨论了传感器选择与速率分配问题之间的联系。第五节展示了所提出的RD-LCMV方法在无线声学传感器网络中的应用。最后,第六节总结了本工作。
本文所使用的符号表示如下:大写(小写)粗体字母用于表示矩阵(列向量)。(·)T 或 (·)H 表示(向量/矩阵)转置或共轭转置。diag(·)表示以其参数中的元素作为主对角线元素的块对角矩阵。 1N 和 ON 分别表示全为1的 N × 1 维向量和所有元素均为零的 N × N 矩阵。IN 是大小为 N 的单位矩阵。E{·} 表示统计期望运算。A B 表示 A − B 是一个半正定矩阵。最后, 表示哈达玛(逐元素)乘积。
II. 预备知识
在本节中,我们介绍一些与无线声学传感器网络中的分布式速率空间滤波相关的初步概念。
A. 信号模型
我们考虑一个空间分布的 M 麦克风传感器候选集,这些传感器进行采集、量化和传输其将观测结果传输至融合中心(FC)。在短时傅里叶变换(STFT)域中,设 l 表示帧索引, ω 表示频率 bin 索引。我们假设有 I 个感兴趣的语音源,同时环境中可能存在 J 个干扰源。采用 STFT 域描述,在第 k 个麦克风处待传输至融合中心的量化信号的含噪离散傅里叶变换系数可表示为 ˆyk(ω, l) k= 1,2,…, M。
$$
\hat{y}_k(\omega, l) = y_k(\omega, l) + q_k(\omega, l), \quad \forall k, \tag{1}
$$
其中 $ q_k(\omega, l) $ 表示量化噪声,该噪声假设与麦克风录音 $ y_k(\omega, l) $ 不相关,由下式给出
$$
y_k(\omega, l) = \sum_{i=1}^{I} a_{ik}(\omega)s_i(\omega, l) + \sum_{j=1}^{J} b_{jk}(\omega)u_j(\omega, l) + v_k(\omega, l), \tag{2}
$$
其中 $ a_{ik}(\omega) $ 表示第 i 个目标信号相对于第 k 个麦克风的声学传递函数(ATF); $ s_i(\omega, l) $ 和 $ x_{ik}(\omega, l) $,分别表示位于源位置的第 i 个目标源和位于第 i 个麦克风处的第 i 个目标源; $ b_{jk}(\omega) $ 表示第 j 个干扰源相对于第 k 个麦克风的声学传递函数; $ u_j(\omega, l) $ 和 $ n_{jk}(\omega, l) $,分别表示位于源位置的第 j 个干扰源和位于第 k 个麦克风处的第 j 个干扰源; $ v_k(\omega, l) $ 表示第 k 个麦克风处的不相关噪声。请注意,在式(2)中,我们假设ATF比短时傅里叶变换窗的长度短,使得在短时傅里叶变换域中,ATF可以被建模为随频率变化的乘性因子。对于较长的ATF,每个频带需要更精确的信号模型,例如参见[20]。为了符号表示的方便,从现在开始我们将省略频率变量 ω 和帧索引 l,但需记住处理是在短时傅里叶变换域中进行的。使用向量表示法,将 M 个通道信号堆叠成一个向量 $\hat{y}=[\hat{y}_1,…,\hat{y}_M]^T \in C^M$。类似地,我们定义维度为 M 的向量 y, xi, nj, v, q,分别表示麦克风录音、第 i 个目标分量、第 j 个干扰分量、加性噪声和量化噪声,从而可将式(1)中的信号模型简洁地写为
$$
\hat{y} = y + q = \sum_{i=1}^{I} x_i + \sum_{j=1}^{J} n_j + v + q, \tag{3}
$$
其中 $ x_i = a_i s_i \in C^M $,且 $ a_i = [a_{i1}, a_{i2}, …, a_{iM}]^T $ 和 $ n_j = b_j u_j \in C^M $,且 $ b_j = [b_{j1}, b_{j2}, …, b_{jM}]^T $。或者,如果我们将目标源和干扰源的ATF分别堆叠成矩阵,则麦克风录音也可以表示为,
$$
y = As + Bu + v, \tag{4}
$$
其中 $ A=[a_1,…,a_I] \in C^{M\times I} $, $ s=[s_1,…, s_I]^T \in C^I $, $ B=[b_1,…, b_J] \in C^{M\times J} $, $ u=[u_1,…, u_J]^T \in C^J $。为了专注于速率分布噪声抑制的概念,本文假设现有声源的 ATF(即 A 和 B)是已知的。
假设目标信号与干扰源相互不相关,则录制信号的相关矩阵为
$$
R_{yy} = E{yy^H} = R_{xx} + R_{uu} + R_{vv} \in C^{M\times M}, \tag{5}
$$
其中,$ R_{xx} = \sum_{i=1}^{I} E{x_i x_i^H} = \sum_{i=1}^{I} P_{si} a_i a_i^H $,$ P_{si} = E{|s_i|^2} $ 表示第 i 个目标源的功率谱密度(PSD),$\Sigma_x = \text{diag}([P_{s1},…, P_{sI}])$。类似地,$ R_{uu} = \sum_{j=1}^{J} E{n_i n_i^H} = \sum_{j=1}^{J} P_{uj} b_j b_j^H = B\Sigma_u B $,$ P_{uj} = E{|u_j|^2} $ 表示第 j 个干扰源的功率谱密度(PSD),$\Sigma_u = \text{diag}([P_{u1},…, P_{uJ}])$。包含在量化信号 $\hat{y}$ 中量化噪声在内的所有干扰的相关矩阵由下式给出
$$
R_{n+q} = R_{nn} + R_{qq}, \tag{6}
$$
假设接收噪声和量化噪声相互不相关。在实际应用中, $ R_{n+q} $ 可以使用足够持续时间的量化纯噪声段进行估计,而 $ R_{xx} = R_{\hat{y}\hat{y}} - R_{n+q} $ 可以使用量化的语音-噪声段进行估计。
B. 均匀量化
使用 $ b_k $ 位对第 k 个麦克风信号的最大绝对值进行均匀量化,其表达式为
$$
Q(a) = \Delta_k \left( \left\lfloor \frac{a}{\Delta_k} \right\rfloor + \frac{1}{2} \right), \quad k = 1,…, M, \tag{7}
$$
其中均匀区间的宽度为 $ \Delta_k = A_k / 2^{b_k} $。注意, $ A_k $ 在不同传感器之间各不相同,由各传感器自身的信号观测决定。每个传感器应通过通信将其 $ A_k $ 告知融合中心。考虑均匀量化的情况,量化噪声的方差或量化噪声的功率谱密度近似为[21],[22]
$$
\sigma^2_{q_k} = \frac{\Delta^2_k}{12}, \quad k = 1,…, M, \tag{8}
$$
以及麦克风阵列间的量化噪声相关矩阵为
$$
R_{qq} = \frac{1}{12} \times \text{diag}\left(\left[\frac{A^2_1}{4^{b_1}}, \frac{A^2_2}{4^{b_2}}, …, \frac{A^2_M}{4^{b_M}}\right]\right). \tag{9}
$$
请注意,$ R_{\hat{y}\hat{y}} $ 和 $ R_{n+q} $ 均包含量化噪声,即 $ R_{\hat{y}\hat{y}} = R_{yy} + R_{qq} $ 和 $ R_{n+q} = R_{nn} + R_{qq} $。在噪声段和含噪段足够长的情况下,量化噪声会以相同的方式影响 $ R_{yy} $ 和 $ R_{nn} $,即加上同一个矩阵 $ R_{qq} $。因此,对 $ R_{xx} $ 的估计不依赖于通信速率,因为它是由 $ R_{n+q} $ 从 $ R_{\hat{y}\hat{y}} $ 中减去得到的。
C. 传输能量模型
我们假设传感器与融合中心之间的通信信道上的噪声为加性白高斯噪声,其功率谱密度为 $ V_k $。信道功率衰减因子为 $ d^{-r}_k $,其中 $ d_k $ 表示第 k 个麦克风到融合中心的传输距离, r 为路径损耗指数(通常为 $ 2 \leq r \leq 6 $)[23],[24]。不失一般性,本文中假设 $ r = 2 $。因此,第 k 条信道的信噪比 SNR 为
$$
\text{SNR}_k = \frac{d^{-2}_k E_k}{V_k}, \tag{10}
$$
其中 $ E_k $ 表示第 k 个麦克风节点每个时频样本的发射能量。假设噪声和发射信号服从高斯分布,则该通信信道在特定时频 bin 下的最大容量由香农理论给出:[25]
$$
b_k = \frac{1}{2} \log_2(1 + \text{SNR}_k), \tag{11}
$$
这意味着每个样本最多可从麦克风 k 可靠地向融合中心传输 $ b_k $ 比特。基于 $ \text{SNR}_k $ 和 $ b_k $,可将从麦克风 k 到融合中心在特定时频子带的传输能量表示为
$$
E_k = d^2_k V_k (4^{b_k} - 1), \tag{12}
$$
这是一种常用的传输模型[23],[26],[27]。上述传输能量模型在以下两个条件下成立[23],[27]:1)在频谱受限应用的背景下(例如,音频信号处理);2)假设我们在信道容量下对麦克风录音进行量化,这实际上是一种理想的信源/信道编码方案,使得量化信号恰好完全适配信道容量。
D. LCMV波束成形
著名的LCMV波束形成器是一种典型的空间滤波技术,其在一组线性约束下最小化输出噪声能量。这些约束可用于保留目标源,或在干扰方向上引导零点(即抑制噪声信号)。在双耳降噪[28]–[30], LCMV波束成形的背景下,也可以利用该技术保留某些双耳关系,以保持空间线索。
从数学上讲,LCMV波束形成器可以表述为
$$
\hat{w}
{\text{LCMV}} = \arg \min_w w^H R
{n+q} w, \quad \text{s.t. } \Lambda^H w = f, \tag{13}
$$
其具有 U 个等式约束,与 $ f=[f_1, f_2,…, f_U]^T \in C^U $ 和 $ \Lambda \in C^{M\times U} $ 相关。更具体地,当使用LCMV波束形成器抑制噪声时,矩阵 $ \Lambda $ 可通过 A 构造,且 f 中的所有元素均为非零值[31]–[33];当在双耳系统中使用LCMV波束形成器进行联合降噪与空间线索保留时,$ \Lambda $ 通过矩阵 A 和 B 构造,而向量 f 将包含一些对应于干扰的零值[28],[29]。为了使本文提出的框架更具通用性,因此我们不对 $ \Lambda $ 或 f 的结构进行限定,其应根据具体应用中的需求来选择。(13)的闭式解可通过拉格朗日乘子法求得,表达式为[31]–[33]
$$
\hat{w}
{\text{LCMV}} = R^{-1}
{n+q} \Lambda (\Lambda^H R^{-1}_{n+q} \Lambda)^{-1} f. \tag{14}
$$
LCMV波束成形后的输出噪声功率可表示为[33]
$$
\hat{w}^H R_{n+q} \hat{w} = f^H (\Lambda^H R^{-1}_{n+q} \Lambda)^{-1} f. \tag{15}
$$
III. 分布式速率LCMV波束成形
A. 问题表述
图1展示了本文所考虑的无线声学传感器网络中的典型通信模型。麦克风录音以指定的比特率进行量化,并通过有噪通信信道传输至融合中心。融合中心执行降噪处理并输出估计的目标信号。在本研究中,我们旨在通过为麦克风分配比特率以达到规定的降噪性能,从而最小化传输成本。我们的初始目标可表述为以下优化问题:
$$
\begin{aligned}
& \min_{w,b} \sum_{k=1}^{M} d^2_k V_k (4^{b_k} - 1) \
& \text{s.t. } w^H R_{n+q} w \leq \frac{\beta}{\alpha} \
& \Lambda^H w = f, \
& b_k \in \mathbb{Z}^+, \quad b_k \leq b_0, \quad \forall k, \tag{P1}
\end{aligned}
$$
其中 $ \beta $ 表示当所有传感器使用全速率量化时可达到的最小输出噪声功率, $ \alpha \in (0, 1] $ 用于控制某一期望性能,$ \mathbb{Z}^+ $ 表示非负整数集, $ b_0 $ 为每个麦克风信号的每样本最大速率。未知变量 b 隐含在输出噪声功率 $ w^H R_{n+q} w $ 中。注意,(P1)是基于速率分布空间滤波的噪声降低问题的一般形式。此外, $ \beta/\alpha $ 不依赖于速率分配策略或整个传感器网络的统计特性,因为 $ \beta/\alpha $ 仅是一个可由用户指定的数值,例如 40 分贝,用以表示期望的性能。通过求解(P1),我们可以确定每个麦克风的最优速率分布利用量化其录制内容,使得降噪系统在最小能量消耗下达到期望性能。(P1)的一个简单求解方法是穷举搜索,即对所有 $ (b_0 + 1)^M $ 种速率分布选择评估性能,但显然除非 $ b_0 $ 或 M 非常小,否则该方法不可行。接下来,我们将为 (P1) 找到一个高效的求解器。
B. 速率分布LCMV波束形成的求解器
在本节中,我们将在LCMV波束成形的背景下重新表述(P1)。考虑到使用LCMV波束形成器进行降噪时,(P1)中的第二个约束条件自动满足。将(14)中LCMV波束形成器的解代入(P1),可得到以下简化的优化问题:
$$
\begin{aligned}
& \min_b \sum_{k=1}^{M} d^2_k V_k (4^{b_k} - 1) \
& \text{s.t. } f^H (\Lambda^H R^{-1}_{n+q} \Lambda)^{-1} f \leq \frac{\beta}{\alpha} \
& b_k \in \mathbb{Z}^+, \quad b_k \leq b_0, \quad \forall k, \tag{P2}
\end{aligned}
$$
其中比特率 b 隐含在输出噪声功率 $ f^H (\Lambda^H R^{-1} {n+q} \Lambda)^{-1} f $ 中,该表达式关于 b 显然是非凸且非线性的。接下来,我们将明确地将 $ f^H (\Lambda^H R^{-1} {n+q} \Lambda)^{-1} f $ 表示为 b 的函数,并通过半定松弛重新表述(P2)。
首先,(P2)中的第一个不等式约束通过引入一个新的埃尔米特正定矩阵 $ Z \in S^U $($ S^U $ 表示 $ U \times U $ 的埃尔米特正定矩阵的集合),等价于以下两个新的约束条件,即
$$
\Lambda^H R^{-1}_{n+q} \Lambda = Z, \tag{16}
$$
$$
f^H Z^{-1} f \leq \frac{\beta}{\alpha}. \tag{17}
$$
不等式 (17) 可以利用舒尔补[34, p.650], 重写为线性矩阵不等式(LMI)。
$$
\begin{bmatrix}
Z & f \
f^H & \frac{\beta}{\alpha}
\end{bmatrix} \succeq O_{U+1}. \tag{18}
$$
然而,(16)中的等式约束在未知数 b 上显然不是凸的。因此,我们将其松弛为
$$
\Lambda^H R^{-1}_{n+q} \Lambda \succeq Z, \tag{19}
$$
由于(17)和(19)是获得(P2)中原始约束的充分条件,且我们在 (19)中使用 进行凸松弛。
然后,为了在 b 中线性化(19),我们计算 $ R^{-1}_{n+q} $ 为
$$
R^{-1}
{n+q} = (R
{nn} + R_{qq})^{-1} = R^{-1}
{nn} - R^{-1}
{nn}(R^{-1}
{nn} + R^{-1}
{qq})^{-1} R^{-1}_{nn}, \tag{20}
$$
其中第二个等式由矩阵反演引理[35,p.18]推导得出
$$
(A + CBCT)^{-1} = A^{-1} - A^{-1}C(B^{-1} + CT A^{-1}C)^{-1} CT A^{-1}.
$$
将(20)式中 $ R^{-1}_{n+q} $ 的表达式代入(19)式,得到
$$
\Lambda^H R^{-1}
{nn} \Lambda - Z \succeq \Lambda^H R^{-1}
{nn}(R^{-1}
{nn} + R^{-1}
{qq})^{-1} R^{-1}_{nn} \Lambda. \tag{21}
$$
利用舒尔补,我们得到以下线性矩阵不等式
$$
\begin{bmatrix}
R^{-1}
{nn} + R^{-1}
{qq} & R^{-1}
{nn} \Lambda \
\Lambda^H R^{-1}
{nn} & \Lambda^H R^{-1}
{nn} \Lambda - Z
\end{bmatrix} \succeq O
{M+U}, \tag{22}
$$
其中 $ R^{-1}_{qq} $ 可根据(9)计算得出
$$
R^{-1}_{qq} = 12 \times \text{diag}\left(\left[\frac{4^{b_1}}{A^2_1}, \frac{4^{b_2}}{A^2_2}, …, \frac{4^{b_M}}{A^2_M}\right]\right). \tag{23}
$$
为符号表示方便,我们定义一个常数向量 $ e = [\frac{12}{A^2_1}, …, \frac{12}{A^2_M}] $。进一步,我们引入变量替换 $ t_k = 4^{b_k} \in \mathbb{Z}^+, \forall k $,使得 $ R^{-1}_{qq} = \text{diag}(e \odot t) $ 和 (22) 均关于 t 是线性的。为了对整数约束 $ b_k \in \mathbb{Z}^+, \forall k $ 进行凸松弛,我们将其松弛为 $ b_k \in \mathbb{R}^+ $,即 $ t_k \in \mathbb{R}^+, \forall k $。综上,我们得到
$$
\begin{aligned}
& \min_{t,Z} \sum_{k=1}^{M} d^2_k V_k (t_k - 1) \tag{24} \
& \text{s.t. } \begin{bmatrix}
Z & f \
f^H & \frac{\beta}{\alpha}
\end{bmatrix} \succeq O_{U+1}, \tag{24a} \
& \begin{bmatrix}
R^{-1}
{nn} + R^{-1}
{qq} & R^{-1}
{nn} \Lambda \
\Lambda^H R^{-1}
{nn} & \Lambda^H R^{-1}
{nn} \Lambda - Z
\end{bmatrix} \succeq O
{M+U}, \tag{24b} \
& 1 \leq t_k \leq 4^{b_0}, \quad \forall k, \tag{24c}
\end{aligned}
$$
这是一个标准的半定规划问题[34,p.128],可以使用内点法或求解器(如CVX[36]或SeDuMi[37])在多项式时间内高效求解。(24)的求解计算复杂度为 $ O((M+U)^3) $ 量级。
求解(24)后,可通过 $ b_k = \log_4 t_k, \forall k $ 得到分配的比特率,这些值为连续值。
C. 随机舍入
由半定规划(24)提供的解包含连续值。一种直接且常用的技术来获得整数比特率是简单舍入,其中整数估计值由 $ \text{round}(b_k), \forall k $ 给出,其中 $ \text{round}(\cdot) $ 算子将其参数舍入到最近整数。然而,无法保证通过这种舍入技术得到的整数解始终满足性能约束。因此,我们采用一种变体舍入技术,即对从(24)获得的估计值进行随机舍入[6]。具体而言,设 $ \text{ceil}(b_k) - b_k $ 和 $ 1 - \text{ceil}(b_k) + b_k, \forall k $ 分别表示 $ b_k $ 取最近的较小整数和最近的较大整数的概率,其中 $ \text{ceil}(\cdot) $ 算子将其参数向最近的较大整数方向舍入,则可根据其概率分布和规定的性能要求,对 $ b_k $ 随机舍入到最近的较大或较小整数。或者,我们可以直接使用 $ \text{ceil}(b_k), \forall k $ 来确定整数速率。然而,由于会导致更多不必要的能量消耗,这种方法相比随机舍入技术是次优的。
IV. 与麦克风子集选择的关系
在本节中,我们将展示速率分配与传感器选择之间的关系。为此,我们首先将(24)中的速率分布LCMV波束成形表示为一个布尔优化问题,然后将基于传感器选择的MVDR波束形成器从[7]扩展到LCMV波束成形框架。我们发现,传感器选择是速率分配问题的一个特例。最后,我们提出一种二分法算法,可用于基于速率分配方法获得如[7]中的传感器选择结果。
A. 速率分布LCMV波束形成的表示
在本小节中,我们将从布尔优化的角度表示(24)中的速率分布LCMV波束形成。当比较速率分布LCMV波束形成框架与基于LCMV波束成形的传感器选择框架时,这种表示方法显得非常有用。在(24)中设 $ p_k = t_k / 4^{b_0}, \forall k $,我们得到以下等效形式
$$
\begin{aligned}
& \min_{p,Z} 4^{b_0} \sum_{k=1}^{M} p_k V_k d^2_k - \varepsilon \tag{25} \
& \text{s.t. } \begin{bmatrix}
Z & f \
f^H & \frac{\beta}{\alpha}
\end{bmatrix} \succeq O_{U+1}, \tag{25a} \
& \begin{bmatrix}
R^{-1}
{nn} + R^{-1}
{qq} & R^{-1}
{nn} \Lambda \
\Lambda^H R^{-1}
{nn} & \Lambda^H R^{-1}
{nn} \Lambda - Z
\end{bmatrix} \succeq O
{M+U}, \tag{25b} \
& 0 \leq p_k \leq 1, \quad \forall k, \tag{25c}
\end{aligned}
$$
其中 $ R^{-1} {qq} = 4^{b_0} \text{diag}(e \odot p) $ 且 $ \varepsilon = \sum {k=1}^{M} d^2_k V_k $ 是一个与优化变量无关的无关常数。注意,对于(25),最小化 $ 4^{b_0} \sum_{k=1}^{M} p_k V_k d^2_k - \varepsilon $ 等价于最小化 $ \sum_{k=1}^{M} p_k V_k d^2_k $。给定(25)的解,可通过 $ b_k = \log_4 p_k + b_0, \forall k $ 以及第三节-C中的随机舍入技术来确定要分配的速率。
备注 1 :从优化的角度来看,(24)和(25)是等价的,即二者均为具有相同计算复杂度的半定规划问题,并且都能够提供最优速率分布。然而,除了速率分配功能之外,(25)还为传感器选择提供了思路,因为其未知数 $ p $ 是介于0和1之间的连续值。因此,如果我们对连续值 $ p $ 应用随机舍入技术,则可以获得一个布尔解,该解可以指示是否选择了某个传感器。换句话说,如果我们关注的是稀疏感知网络而非能耗感知网络,则可以使用(25)来选择最佳的麦克风子集。
基于(25)中速率分布式LCMV波束成形的表示,接下来我们将寻找速率分配与传感器选择之间的关系。
B. 模型驱动的LCMV波束成形
在[7]中,我们研究了在MVDR波束形成背景下基于麦克风子集选择的降噪问题。我们通过约束期望噪声抑制性能来最小化传输成本。传输成本与每个麦克风与融合中心之间的距离相关。当(13)中的约束数量减少为仅保留单个目标的单个约束时,LCMV波束形成器退化为一个特例,即MVDR波束形成器。因此,从数学上讲,[7]中的原始传感器选择问题可以通过添加更多线性约束扩展为以下优化问题
$$
\begin{aligned}
& \min_{w_p,p} \sum_{k=1}^{M} p_k d^2_k \
& \text{s.t. } w_p^H R_{n+q,p} w_p \leq \frac{\beta}{\alpha}, \
& \Lambda_p^H w_p = f, \tag{26}
\end{aligned}
$$
其中 $ p = [p_1,…, p_M]^T \in {0, 1}^M $ 是选择变量,用于指示是否选定了某个传感器,$ w_p $ 表示对应于所选传感器的LCMV波束形成器的系数,$ \Lambda_p $ 是 $ \Lambda $ 的子矩阵,该矩阵在(13)中已定义,其他参数的定义与(P1)中类似。注意,(26)中的传输成本仅受传输距离的影响,因为我们假设所有选定的传感器都使用全速率量化,因此在传感器选择问题中不需要理想信源/信道编码假设,并且信道噪声 $ V_k, \forall k $ 被忽略。假设对于麦克风子集选择问题,所有候选传感器均使用最大速率,即 $ b_0 $ 每样本比特数,与融合中心进行通信,使得 $ R_{n+q} = R_{nn} + R_{qq} $ 且 $ R_{qq} = \frac{1}{12} \times \text{diag}\left(\left[\frac{A^2_1}{4^{b_0}}, \frac{A^2_2}{4^{b_0}}, …, \frac{A^2_M}{4^{b_0}}\right]\right) $。(26)被称为模型驱动的LCMV波束成形,因为它基于统计知识 $ R_{n+q} $。
我们将说明,(26)中的优化问题可以通过考虑(25)来求解。设 $ \text{diag}(p) $ 为一个对角矩阵,其对角元素由 $ p $ 给出,使得 $ \Phi_p \in {0, 1}^{K\times M} $ 是在移除全零行(对应于未选中的传感器)后 $ \text{diag}(p) $ 的一个子矩阵。因此,我们可以很容易地得到以下关系
$$
\Phi_p \Phi_p^T = I_K, \quad \Phi_p^T \Phi_p = \text{diag}(p). \tag{27}
$$
因此,将选择模型应用于式(14)中的经典LCMV波束形成器,可得到最优线性无偏估计器
由 $ p $ 确定的 $ K $ 麦克风的子集将
$$
\hat{w}
p = R^{-1}
{n+q,p} \Lambda_p (\Lambda_p^H R^{-1}_{n+q,p} \Lambda_p)^{-1} f, \tag{28}
$$
其中 $ R_{n+q,p} = \Phi_p R_{n+q} \Phi_p^T $ 表示在去除与未选中的传感器相对应的行和列后,选定的传感器的总噪声相关矩阵,即 $ R_{n+q,p} $ 是 $ R_{n+q} $ 的一个子矩阵。
将(28)的结果应用于(26),可得到基于LCMV波束形成器的简化优化问题
$$
\begin{aligned}
& \min_p \sum_{k=1}^{M} p_k d^2_k \
& \text{s.t. } w_p^H R_{n+q,p} w_p \leq \frac{\beta}{\alpha}, \tag{29}
\end{aligned}
$$
其中,类似于(15)式,输出噪声功率由下式给出
$$
w_p^H R_{n+q,p} w_p = f^H (\Lambda_p^H R^{-1}_{n+q,p} \Lambda_p)^{-1} f. \tag{30}
$$
通过引入一个对称的PSD矩阵 $ Z \in S^+_U $,我们可以将(29)中的约束重写为两个新的约束,方法与前一节类似。
$$
\Lambda_p^H R^{-1}_{n+q,p} \Lambda_p = Z, \tag{31}
$$
$$
f^H Z^{-1} f \leq \frac{\beta}{\alpha}. \tag{32}
$$
利用舒尔补,(32)中的不等式可重写为一个线性矩阵不等式,这与(25a)相同。此外,类似于第三部分,我们将(31)中的等式约束放宽为
$$
\Lambda_p^H R^{-1}_{n+q,p} \Lambda_p \succeq Z, \tag{33}
$$
由于非凸性,(33)的左侧可以计算为
$$
\begin{aligned}
\Lambda_p^H R^{-1}
{n+q,p} \Lambda_p &= (a)\ \Lambda^H \Phi_p^T R^{-1}
{n+q,p} \Phi_p \Lambda \
&= (b)\ \Lambda^H \Phi_p^T (\Phi_p R_{n+q} \Phi_p^T)^{-1} \Phi_p \Lambda \
&= (c)\ \Lambda^H \Phi_p^T \left( \Phi_p R_{nn} \Phi_p^T + \Phi_p R_{qq} \Phi_p^T \right)^{-1} \Phi_p \Lambda \
&= (d)\ \Lambda^H \left[ R^{-1}
{nn} - R^{-1}
{nn} (R^{-1}
{nn} + \Phi_p^T Q^{-1} \Phi_p)^{-1} R^{-1}
{nn} \right] \Lambda \
&= (e)\ \Lambda^H R^{-1}
{nn} \Lambda - \Lambda^H R^{-1}
{nn} (R^{-1}
{nn} + 4^{b_0} \text{diag}(p \odot e))^{-1} R^{-1}
{nn} \Lambda, \tag{34}
\end{aligned}
$$
其中,(c)将 $ \Phi_p R_{qq} \Phi_p^T $ 构造为一个新的对角矩阵 $ Q \in R^{K\times K} $,其对角元素对应于选定的传感器;(d)基于矩阵反演引理[35,p.18]推导得出;(e)在 $ p $ 包含布尔变量时成立。
将(34)代入(33)并利用舒尔补引理,可得到一个与(25b)相同的线性矩阵不等式。综上所述,我们将LCMV波束成形的传感器选择问题重新表述为以下半定规划:
$$
\begin{aligned}
& \min_{p,Z} \sum_{k=1}^{M} p_k d^2_k \tag{35} \
& \text{s.t. } \begin{bmatrix}
Z & f \
f^H & \frac{\beta}{\alpha}
\end{bmatrix} \succeq O_{U+1}, \tag{35a} \
& \begin{bmatrix}
R^{-1}
{nn} + R^{-1}
{qq} & R^{-1}
{nn} \Lambda \
\Lambda^H R^{-1}
{nn} & \Lambda^H R^{-1}
{nn} \Lambda - Z
\end{bmatrix} \succeq O
{M+U}, \tag{35b} \
& 0 \leq p_k \leq 1, \quad \forall k, \tag{35c}
\end{aligned}
$$
其中布尔变量 $ p_k, \forall k $ 已被连续代理变量松弛。将(25)中的速率分配问题与(35)中的传感器选择问题进行比较,可以看出它们仅在成本函数上存在差异。直观上,当所有通信信道具有相同的噪声功率时,例如 $ V_k = 1, \forall k $,传感器选择问题等价于速率分配问题。基于这一观察可得出结论:传感器选择问题可以通过速率分配算法求解。换句话说,所提出的速率分配方法是[7]中传感器选择方法的推广。
C. 通过二分法算法确定阈值
在第四节-B中,我们从理论角度展示了速率分配问题与传感器选择之间的关系,即前者是后者的推广。由此可知,最佳麦克风子集可以通过速率分布的解来确定。现在,剩下的关键问题是,如何根据本研究中提出的速率分布来确定如[7]所示的选定传感器。为此,我们提出了一种用于阈值确定的二分法算法。
具体而言,给定速率分布 $ b_k, \forall k $ 其为问题(24)的解,以及最大速率 $ b_0 $,首先我们设定阈值 $ T = b_0 / 2 $,使得我们选择一个传感器子集,记为 $ S $,其速率大于 $ T $,即 $ S = {k \mid b_k \geq T} $。如果使用集合 $ S $ 中包含的传感器所获得的性能,记为 $ \tau $,大于 $ \beta / \alpha $,则我们减小 $ T $ 并更新 $ S $;如果 $ \tau < \beta / \alpha $,则我们增大 $ T $。该过程持续进行,直到 $ |\beta / \alpha - \tau| \leq \varepsilon $,其中 $ \varepsilon $ 是一个预定义的非常小的正数。此外,最优麦克风子集也可以通过求解(25)中的优化问题得到,但此时需要应用舍入技术来处理布尔变量 $ p $。
V. 数值结果
在本节中,我们将展示所提出的算法在WASN中的噪声降低方面的数值结果。
A. 单目标源
图2展示了仿真中采用的实验设置,其中24个候选麦克风均匀地放置在一个尺寸为(3 × 3) m的二维房间内。期望的语音源(红色实心圆)位于(0.3,2.7) m处。融合中心(黑色实心方块)位于房间中心。两个干扰源(蓝色星号)分别位于(0.3,0.3) m和(2.7,2.7) m处。目标源信号是由TIMIT数据库[38]中的语音信号拼接而成的10分钟长的语音信号。干扰源为平稳的高斯型语音成形噪声源。不相关噪声被建模为麦克风自噪声,信噪比为50 dB。所有信号的采样频率为16 kHz。我们使用20 ms的平方根汉宁窗进行分帧,帧间重叠50%。声学传递函数通过[39]生成,混响时间为T60= 200 ms。为了专注于分布式速率空间滤波问题,我们假设后续过程中存在一个理想的语音活动检测器(VAD)。此外,麦克风到融合中心的距离 $ d_k, \forall k $ 以及信道噪声 $ V_k, \forall k $ 被视为已知量,例如 $ V_k = 1, \forall k $,不失一般性。对于噪声相关矩阵 $ R_{nn} $,在每个节点以最大速率 $ b_0 $ 或更高与融合中心通信时,利用足够长的纯噪声段在融合中心端进行估计。
图3展示了通过速率分布式LCMV波束成形和基于模型驱动的传感器选择的MVDR波束成形(简称为MD-MVDR)[7]获得的比特率分配示例,其中 $ \alpha = 0.8 $。由于仅存在一个感兴趣的目标源,所提出的方法在(24)中的优化问题简化为速率分布式MVDR波束成形,简称RD-MVDR。从图3可以看出,为了实现相同的性能,所提出的RD-MVDR方法激活的传感器数量多于MD-MVDR。MD-MVDR所选子集的基数较小。然而,RD-MVDR中每个激活的传感器分配到的每样本比特率远低于最大速率,即 $ b_0 = 16 $ 比特。此外,靠近目标源和融合中心的传感器更有可能被分配更高的比特率,因为它们具有更高的信噪比和更少的能量成本。更重要的是,我们使用第四节-C中的二分法算法找到了RD-MVDR速率分布的一个阈值,例如6.2818比特,且速率大于此阈值的激活的传感器与使用MD-MVDR算法得到的最优子集完全相同。这一现象支持了我们在第四节中得出的结论,即最优麦克风子集选择问题可以通过速率分配算法解决。因此,给定速率分布的解,找出最优麦克风子集等价于确定一个比特率阈值。
为了展示所提出的方法在降噪和能量消耗方面的对比,我们还在图4中以分贝为单位给出了输出噪声功率(dB)和能耗比(EUR),其中指标EUR是由…定义
$$
\text{EUR}
i = E_i / E
{\text{max}}, \quad i \in { \text{RD-MVDR}, \text{MD-MVDR} },
$$
其中 $ E_i $ 表示RD-MVDR或MD-MVDR方法所使用的能量, $ E_{\text{max}} $ 表示所有传感器都参与且以 $ b_0 $ 比特与融合中心通信时的最大传输能量。显然,EUR越低,能效越高。在图4中,我们还与期望最大噪声功率进行了比较,即 $ 10\log_{10} (\beta / \alpha) $。注意, $ \beta $ 表示使用所有传感器时的输出噪声功率。尽管在实际中难以计算,但在仿真中可以通过包含所有传感器并为每个传感器分配 $ b_0 $ 比特来估计。在实际应用中,我们只需为 $ 10\log_{10} (\beta / \alpha) $ 设置一个值(例如40分贝),以约束期望性能。由图4可知,RD-MVDR和MD-MVDR均满足性能要求(即低于上界 $ 10\log_{10} (\beta / \alpha) $),而RD-MVDR在能量消耗方面更高效,这一点在图3的速率分布中也有所体现。
B. 蒙特卡洛仿真
为了更全面地比较速率分配和传感器选择,我们进行了蒙特卡洛仿真以展示它们的平均噪声抑制性能。考虑图2中的实验设置,我们固定麦克风的位置和两个干扰源的位置,但随机选择单个目标源和融合中心的位置。在图5中,我们展示了性能要求 $ 10\log_{10} (\beta / \alpha) $ 与RD-MVDR/MD-MVDR方法在性能控制器 $ \alpha $ 下的输出噪声功率之间的平均差异,即 $ 10\log_{10} (\beta / \alpha) $ 减去RD-MVDR/MD-MVDR方法的输出噪声功率,该值始终为正。结果基于200次试验进行平均。可以看出,随着 $ \alpha $ 的增加,RD-MVDR和MD-MVDR的平均差异均减小。与MD-MVDR方法相比,RD-MVDR方法在所有 $ \alpha $ 值下均实现了更小的差异,即所提出的分布式速率方法的性能更接近性能要求。
此外,在实际应用中,ATF通常通过对矩阵 $ R_{nn} $ 和 $ R_{yy} $[40],[41]进行广义特征值分解来估计。ATF估计精度受到二阶统计量估计的影响,即语音活动检测(VAD)以及可用的无语音/有语音持续时间。为了分析所提出的方法在真实场景下对ATF估计误差的鲁棒性,我们进行了蒙特卡洛仿真。考虑到单个源的ATF估计(设置类似于图2)表示为 $ \hat{a} = a + \tilde{a} $,其中 $ a $ 和 $ \tilde{a} $ 分别表示真实的ATF和估计误差,分别地,我们定义
$$
\zeta = 10 \log_{10} \frac{E[|\tilde{a}|^2]}{|a|^2}, \tag{36}
$$
用于衡量估计误差的水平。给定以分贝为单位的 $ \zeta $,我们可以基于零均值复高斯分布随机生成 $ \tilde{a} $。图6显示了在固定源/融合中心位置和 $ \alpha = 0.6 $ 的情况下,性能要求与上述方法在声学传递函数估计误差 $ \zeta $ 方面的平均差异。结果也在200次试验上进行了平均。显然,MD-MVDR方法的性能距离期望性能更远。随着 $ \zeta $ 的增加,平均性能差异的均值变化不大,但相应的方差逐渐增大。因此,所提出的方法对声学传递函数估计误差具有鲁棒性。
m二维房间内的169个麦克风组成。传感器的标记方式为从下到上、从左到右,与图2中的标记方式类似。选定的麦克风是通过求解(35)得到的,对应于 α= 0。8)
C. 多个目标源
为了进一步研究所提出的方法对多个目标源的降噪能力,我们考虑一个如图7所示的大规模无线声学传感器网络,该网络由169个麦克风均匀分布在尺寸为(12 × 12) m的二维房间中。融合中心位于房间中心。两个目标源分别位于(2.4,9.6) m和(9.6,2.4) m处。两个干扰源分别位于(2.4,2.4) m和(9.6,9.6) m处。图8显示了速率分布情况,其中将所提出的方法(记为RD-LCMV)与模型驱动的传感器选择方法(在第四节-B中记为MD-LCMV)进行了比较,后者通过第IV-C节中的二分法算法求解。类似于图3,靠近目标源和融合中心的传感器被分配了更高的速率。第85个麦克风节点被分配了最高速率,即16比特,因为它恰好位于融合中心的位置。此外,结果表明,MD-LCMV的最佳麦克风子集可以通过寻找RD-LCMV解的最优阈值(即3.7812比特)来确定。此外,我们在图7中绘制了通过求解(35)得到的传感器选择结果。比较通过求解(35)所选择的传感器与如图7所示,将通过二分法算法应用于率失真LCMV算法的解所选择的传感器与图8中的传感器进行比较,我们发现这两组传感器完全相同。这也验证了传感器选择与速率分配问题之间的关系。
总之,速率分配算法(RD-LCMV 或 RD-MVDR)通常会激活比传感器选择算法(MD-MVDR 或 MD-LCMV)更多的传感器,但每个被激活的传感器分配的比特率要低得多。因此,从数据传输能耗的角度来看,速率分配算法消耗的能量更少。
VI. 结论
本文研究了感知能量的无线声学传感器网络中基于率分布式空间滤波的降噪问题。良好的比特率分配策略可以显著节省能量成本,同时相较于传感器选择方法所获得的最佳麦克风子集进行盲目均匀分配,还能实现规定的降噪性能。该问题被建模为在满足期望性能约束下最小化总传输成本。在LCMV波束成形框架下,我们将该问题表述为一个半定规划(即RD-LCMV)。进一步地,我们将[7]中的模型驱动的传感器选择方法扩展到LCMV波束成形(即MD-LCMV)。结果表明,速率分配问题是传感器选择的一种推广,例如,可以通过确定由RD-LCMV或RD-MVDR算法得到的速率的最优阈值来选择最佳麦克风子集。在无线声学传感器网络中,基于数值验证,我们发现靠近声源和融合中心的麦克风被分配了更高的速率,因为它们分别有助于信号估计和降低能量消耗。
842

被折叠的 条评论
为什么被折叠?



