无监督联邦学习估计麦克风簇

原创于 2025-10-05 02:13:16 发布 · 253 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#联邦学习 # 聚类 # 隐私 # 自编码器 # 无监督

部署运行你感兴趣的模型镜像

使用无监督联邦学习估计声学传感器网络中的麦克风簇

摘要

本文提出了一种在声学传感器网络（ASN）中估计以源为主的麦克风簇的隐私保护方法。该方法基于聚类联邦学习，并通过采用轻量级自编码器模型将其扩展到无监督场景。该模型进一步针对极稀疏数据的训练进行了优化。为了充分利用ASN应用中麦克风节点聚类的优势，我们引入了一种计算簇成员值的方法。我们通过基于聚类的度量和全网络分类任务验证了所提方法的性能。

索引词

联邦学习，聚类，隐私，声学传感器网络，自编码器，无监督

1. 引言

声学传感器成本的持续降低以及无线网络和移动设备的普及，有助于建立（无线）声学传感器网络（ASN）所需的技术基础设施。这些技术在众多应用中非常有用，范围从智能家居和环境辅助生活[1]到机器故障诊断[2]和监控[3]。

通常，ASN应用需要处理多个音频源同时活跃的情况。在许多此类场景中，若能获取麦克风节点及其与活跃声源之间关系的信息，则可以增强ASN提供的优势。例如，在[4, 5]中，基于手工设计的频谱特征表示来估计以源为主的麦克风簇，有助于提升ASN整体的信号分类和源分离性能。

尽管对多个麦克风进行聚类和处理将为上述应用带来额外优势，但在潜在不安全的（无线）通信环境中传输富含数据的信号表示也会带来严重的隐私风险。即使在智能家居这样的小规模场景中，窃听者连接网络并截获数据也构成了隐私隐患[6]。此外，在当今隐私问题备受关注[7]、且诸如欧盟通用数据保护条例（EU GDPR）[8]等隐私政策致力于推行“设计保护隐私”原则的世界中，建议采用更加注重隐私的解决方案。因此，本研究摒弃直接从原始音频数据提取特征表示的方法，转而采用基于聚类联邦学习（CFL）[9]的更具隐私意识的解决方案。通过这种方式，ASN节点（客户端）只需共享本地学习的神经网络参数更新与中心节点（服务器）进行。此外，通过利用参数更新向量之间的余弦相似性度量，可以实现客户端的层次聚类。

联邦学习（FL）[10, 11]和固有的CFL是为处理大量数据的大规模分布式系统而设计的，迄今为止仅用于（半）监督学习应用中，且这些应用需要有（弱）分类标签。然而，在我们的 ASN场景中，例如智能家居，聚类必须在相对较短的音频片段上进行，最重要的是，无法获取训练标签。因此，将CFL适应于此无监督场景，并在ASN背景下实现，成为一个具有挑战性的任务。

为了研究这一问题，我们希望在鞋盒房间内存在两个同时活跃的声源的情况下，扩展并研究CFL在ASN背景下的应用。

本文的其余部分结构如下：我们首先讨论与先前工作的关系，接着描述提出的方法。然后详细介绍实验场景和结果，并以结论与展望作为结尾。

2. 与先前工作的关系

在与ASN相关的场景中，以源为主的麦克风簇的估计已通过多种方法和不同目标应用进行了先前探索。这些方法包括使用相干性模型[12]和能量衰减信息，以及特征向量[13]和频谱特征 [2, 4, 5, 14]。结合无监督模糊聚类，后者的方案获得了鲁棒的聚类效果，并进而改善了信号分类结果。尽管具有上述优点，但这些方法未包含隐私保护组件，因此无法满足现代隐私要求 [8, 15]。此外，有监督模糊聚类需要预先知道源的数量[16]。

我们提出的方法基于上述研究引入的概念，并侧重于使用联邦学习（FL）的一种变体——CFL [9]来增加隐私保护层。频谱特征虽然经过聚合，但仍保留敏感的隐私信息[17],，而我们的方法将其替换为更具隐私保护性的、在本地学习得到的神经网络参数更新。该方法本身已显著降低了隐私风险，若进一步结合加密、差分隐私 [18],或编码方案 [19]，隐私保护效果更佳。为了利用CFL的隐私优势来解决无监督聚类任务，我们建议在每个传感器节点部署一个轻量级自编码器，以支持无监督训练。随后，CFL将在中央服务器上比较并聚类这些分布式自编码器的本地更新，并将节点分配给相应的声源。为应对数据稀缺情况下的训练问题，并进一步减少传输深度神经网络（DNN）模型更新所带来的通信开销[20, 21],，我们限制了传输参数的数量，并仅更新自编码器的一部分参数。

，其中平均归一化簇内（a）和簇间余弦相似度（b）被聚合，以确定簇参考节点，进而用于计算MVs（c）。由于特定声学构型包含墙壁反射和混响，偶尔会观察到异常值。示意图涉及单一仿真场景。)

3. 基于CFL的无监督聚类

3.1. 联邦学习

联邦学习在[10, 11]中被提出，作为一种用于大规模隐私保护的神经网络参数分布式学习方法。该方法通过一定数量的通信轮次 τ进行三步迭代过程。第一步，客户端通过下载由列向量 θ τ表示的最新模型参数与服务器同步。第二步，每个客户端 i 在其各自的数据Di上执行随机梯度下降（SGD）[22]，独立优化其自身的模型参数 θ τ i 。第三步，客户端将它们的模型参数更新∆θ τ i 上传至服务器进行聚合。
$$
\theta^{\tau+1} = \theta^\tau + \sum_{i=1}^{M} \frac{|D_i|}{|D|} \Delta\theta^\tau_i,
$$
其中 M是客户端的总数，D是它们的总数据集， | · | 表示数据集的基数。

3.2. 簇式联邦学习

[9, 19]表明，当客户端的数据来自不同（incongruent）分布时，不存在单一的 θ ∗能够同时最优地最小化所有客户端的损失。对于出于这一原因，作者建议对具有相似（一致的）分布的客户端进行聚类，并为每个生成的簇训练独立的服务器模型。所提出的聚类准则使用节点权重更新向量之间的余弦相似度度量ai,j
$$
a_{i,j} = \frac{\langle \Delta\theta_i, \Delta\theta_j \rangle}{|\Delta\theta_i| |\Delta\theta_j|},
$$
其中 ⟨·, ·⟩ 表示内积， ‖·‖ 表示 L2 归一化。所有客户端的余弦相似度ai,j 被收集在对称矩阵A中。

使用二分划分的层次聚类可以基于A递归应用。每次二分划分步骤得到的两个簇 c1和 c2满足：最大跨簇余弦相似度始终小于任一簇内最小的余弦相似度[9]。
$$
\max_{\forall i \in c_1, k \in c_2}(a_{i,k}) < \min\left( \min_{\forall i,j \in c_1}(a_{i,j}), \min_{\forall k,l \in c_2}(a_{k,l}) \right).
$$
该过程被递归重复执行，直到数据分布的一致性条件不再被违反，从而获得新的子簇。对于每个簇 c，可通过分析权重更新向量 ∆θc的均值和最大欧几里得范数来验证后者。
$$
\bar{\Delta\theta_c} = \left| \frac{1}{|c|} \sum_{i \in c} \Delta\theta_i \right| \quad \text{and} \quad \hat{\Delta\theta_c} = \max_{i \in c}(|\Delta\theta_i|).
$$
每当服务器已达到稳态解但某些客户端仍在向局部平稳点收敛时，会观察到 ∆θc的 ¯ ˆ值较低，同时 ∆θc 的值较高。这表明数据分布不一致，并触发二分划分。

3.3. 无监督簇联邦学习

在其他研究中，联邦学习（FL）和簇联邦学习（CFL）被用于改进基于服务器的分类模型，以实现高分类准确率。然而，我们的工作仅关注获得良好的聚类结果，这些结果可进一步用于增强后续的基于ASN的应用。此外，我们旨在寻求一种更通用的解决方案，不依赖于标注数据的可用性，因此在聚类过程中需要采用无监督方法。为此，我们提出使用具有较少可训练参数的轻量级自编码器，并对其进行周期性重新初始化。

所提出的自适应方法以及标准的CFL算法[9],在算法1中进行了示意图式描述。在执行联邦学习之前，先对轻量级自编码器 h进行预训练，然后冻结除瓶颈层之外的所有层。后者在应用CFL之前始终使用随机参数重新初始化。减少可训练网络参数是必要的，以避免由于训练样本数量极少与完整模型参数数量极大之间的巨大差异而导致的过拟合[23]。此外，处理更少的参数可以降低计算和带宽成本[20]。

除了基于 ∆θ c ≤ ε 1 ˆ和∆θ c ≥ ε 2 的不一致性验证外，如[9], 中所介绍的，我们提出了一种补充性验证方法，以适应处理少量训练样本时产生的较高∆θ c 和∆θ c 变化。该方法包括对 ¯ ¯梯度 |∇∆θ c | ≤ ε 3 进行阈值化，其直觉依据是：较小的∆θ c 斜率表明系统已达到稳态解，而不论 ∆ ¯ θ c 的绝对值如何。

3.4. 成员值

为了评估每个节点对其相应簇的贡献，我们提出在将客户端进行二分划分形成簇 c1 和 c2 后，进行簇成员值 (MVs) 的计算。我们首先计算每个客户端 i 的平均簇内和簇间相似度，并分别将其堆叠成向量q和r，其中
$$
q_i = \frac{1}{|c_x| - 1} \sum_{j \in c_x \setminus {i}} a_{i,j} \quad \text{and} \quad r_i = \frac{1}{|c_y|} \sum_{k \in c_y} a_{i,k}
$$
对于 ∀i ∈ cx和(cx, cy) ∈{(c1, c2),(c2, c1)}，其中 |·| 表示集合的基数。我们进一步对q和r应用最小‐最大归一化，然后使用加权和计算向量p，该向量包含每个客户端的聚合的平均余弦相似度值。
$$
p_i = \lambda \frac{q_i - \min(q)}{\max(q)- \min(q)} + (1 - \lambda) \frac{r_i - \min(r)}{\max(r)- \min(r)}.
$$
由于声源被建模为球面点源，靠近声源的节点接收到的信号与其他主要受两个声源混响混合主导的节点接收到的信号差异较大。这导致位于簇源附近以及边缘位置的节点具有较小的簇内平均相似度值，因此需要额外的跨簇信息来区分这些节点。在应用(6)之后，只有最靠近簇源的节点才会显示出较小的 pi值。我们进一步选择每个簇中 pi值最小的节点作为参考节点，并计算MVs向量 µ，即簇内各节点与其对应参考节点之间的余弦相似度：
$$
\mu_i = a_{i,\arg\min(p_j)}, \quad \forall i, j \in c_x \quad \text{and} \quad c_x \in {c_1, c_2}.
$$
再次对向量 µ 应用最小‐最大归一化。图1给出了单个仿真场景的示例。此外，还考虑了使用 µi = 0, ∀µi ≤ v 进行阈值化，以忽略低MVs的节点。

4. 实验与结果

4.1. 数据库和仿真场景

在本研究中，我们采用LibriSpeech语料库的一个子集，即 train-clean-100，该子集包含251名说话人（125名女性， 126名男性）的有声读物录音，采样率为16 kHz。我们进一步应用语音活动检测（VAD），并将数据重组为25006条长度10秒的语句。接着，将数据集划分为Libri-服务器，包含157名说话人（79名女性， 78名男性），用于训练自编码器和性别识别器，以及Libri-clients，包含94名说话人，用于执行聚类和推断说话人性别。

本研究仅考虑在尺寸为 4.7 × 3.4 × 2.4 m、混响时间为 T60= 0.34 s的鞋盒形房间内，两个同时活跃的源随机位于相对象限的情况。部署在房间内的ASN包含 M= 16个麦克风节点，这些节点同样随机分布，但需满足每个声源至少有三个节点位于临界距离以内，从而保证直达分量能量高于混响能量。声源和麦克风的随机分布共进行十次。对于每种生成的构型，从 Libri‐clients中随机选择20组性别平衡的说话人对，共形成 200个仿真场景。针对每个场景，我们随机选取每位说话人16 条语句，执行CFL，然后利用估计出的簇配置进行性别识别。

每个ASN节点 i都会接收到来自声源 s 1和 s 2的信号混合，表示为
$$
x_i(t) = s_1(t) * g_{s_1}^i(t) + s_2(t) * g_{s_2}^i(t),
$$
其中 $ g_{s_j}^i $ 是从声源 j到节点 i的脉冲响应，使用CATT Acoustic通过锥形追踪[25]进行模拟。

4.2. 服务器预训练

所提出的自编码器 h的架构详见表1。该自编码器被训练用于重构对数梅尔频带能量（LMBE）输入特征表示 Y。后者针对每个10秒语句，如[26]中所述，通过短时离散傅里叶变换（STFT）提取，窗长为 L₁ = 0.064 s，步长为 R₁ = 0.032 s，并结合 K= 128个梅尔滤波器。训练在Libri‐server数据集上进行300个周期，使用学习率为 lr = 0.1的SGD优化器。在整个模型参数集Θ上最小化的损失函数是输入与重建特征向量之间的均方误差（MSE）：
$$
\min_\Theta L_{\text{mse}}(Y, \hat{Y}) = \min_\Theta \frac{1}{N} \sum_{n=1}^{N} (y_n - \hat{y}_n)^2.
$$
在模型经过训练后，除了子集 θ之外的参数均被冻结。可训练参数的初始数量因此减少为 O₂ = 841。该子集对应于表1中第5层的参数。这些参数将按照下一小节所述进一步重新初始化并进行训练。

表1. 自编码器 h的神经网络架构。

层	输入	操作符	ch.	步幅	卷积核/池化	激活
1	128 × 128	二维卷积	6	1	5×5	ReLU
2	6 × 124 × 124	最大池化	-	2	2×2	-
3	6 × 62 × 62	二维卷积	16	1	5×5	ReLU
4	16 × 58 × 58	最大池化	-	2	2×2	-
5	16 × 29 × 29	密集	16	-	-	ReLU
6	16 × 58 × 58	反池化	-	2	2×2	-
7	6 × 62 × 62	反卷积2D	6	1	5×5	ReLU
8	6 × 124 × 124	反池化	-	2	2×2	-
9	6 × 124 × 124	反卷积2D	1	1	5×5	Sigmoid

4.3. 聚类

子章节4.2中详细介绍的预训练自编码器 h被用于无监督CFL，如算法1所示。在(9)中引入的均方误差损失函数仅作用于参数子集 θ，因为其余参数已被冻结。我们通过实验设置了ε₁= 0.0134、 ε₂= 0.005、 ε₃= 0.0007和 maxτ= 25通信轮次。在每一轮 τ中，总共 M= 16个客户端各自训练一个轮次，并使用 lr= 0.1。客户端的输入特征表示 Yi基于10秒时域信号 xi(t)计算得出，具体方法见(8)，其中 s₁和 s₂选自Libri‐clients数据集。根据(6)定义的 MV值使用 λ= 0.5计算。

为了评估和比较聚类性能与最先进的解决方案，我们采用后者中从簇 cx到声源 sz的归一化簇到源距离作为指标
$$
\tilde{d} {c_x}^{s_z} = \frac{|\rho {s_z} - \bar{\rho} {c_x}|}{|\rho {s_1} - \rho_{s_2}|}, \quad \forall c_x \in {c_1, c_2}, \; s_z \in {s_1, s_2},
$$
其中 $\rho_{s_z}$ 是声源 sz的几何位置，$\bar{\rho} {c_x}$ 是由其对应的MV值加权的分配给簇 cx的节点 i的几何位置的平均值。表2显示了在所有200个模拟场景上平均的 $\tilde{d} {c_x}^{s_z}$。

表2. 归一化簇到源距离 $\tilde{d}_{c_x}^{s_z}$ 从簇 cx到声源 sz，在200个场景上的平均值。

	c₁	c₂
s₁	0.15	0.91
s₂	0.87	0.14

可以观察到，$d_{c_1}^{s_1}$ 和 $d_{c_2}^{s_2}$ 的值较低，表明MV加权簇中心各自接近其主导源。较高的 $\tilde{d} {c_1}^{s_2}$ 和 $\tilde{d} {c_2}^{s_1}$ 值证实，MV加权簇中心同时远离其对立源。获得的指标表明具有良好的簇预测，可与[4] 中的结果相媲美。

4.4. 性别识别

为了从实用性角度评估聚类性能，我们进一步实施了性别识别任务。为此，我们首先在Libri‐server数据集上训练一个性别识别模型 e，其中部分纯净信号被随机增强为男女混响信号混合。模型结构如表3所示，输入特征表示 Y从 L₁ = 0.064、 R₁ = 0.02和 K= 40中提取。训练过程进行13个训练轮次，使用交叉熵损失函数和SGD优化器（参数为 lr = 0.01）。测试在所有200个样本上进行。

表3. 性别识别器 e的神经网络架构。

输入	操作符	ch.	步幅	卷积核/池化	归一化	激活	丢弃
501×40	二维卷积	32	1	5×40	Yes	ReLU	-
497×32	二维卷积	64	1	5×1	Yes	ReLU	-
493×32	二维卷积	32	1	3×3	Yes	ReLU	-
491×30	最大池化	-	1	92×1	-	-	-
99×32	二维卷积	64	1	3×3	Yes	ReLU	-
97×30	最大池化	-	1	92×1	-	-	-
1×64	密集	64	-	-	-	ReLU	50%
1×64	密集	2	-	-	-	Softmax	-

上述仿真场景，利用Libri‐clients的语句生成聚类估计。所提出的评估指标为准确率（Acc）和 F1‐分数（F1），其中节点的真实性别标签由脉冲响应中首峰延迟最短的声源的性别决定。簇的真实性别标签由其组成节点的真实性别标签的众数决定。簇的预测性别标签是其节点预测性别标签的众数。由于每个节点处理16条语句/场景，其性别标签由这些语句上的性别预测结果的众数决定。评估指标在全部200个模拟场景上取平均。结果如表4第一列所示。

上述结果通过考虑由MV值指示的节点主导声源接近度而得到进一步改善。在这种情况下，簇的预测性别标签由MV加权后的节点预测之和除以MV值之和进行归一化得到。从表4的第二列可以看出，MV加权对性别识别性能具有积极影响，因为声源与节点之间的距离越小/越大，意味着混响和信号干扰越少/越多，从而导致节点级性别预测的准确率更高/更低。

此外，在另一项实验中，将小于阈值 v的MV值设为0，以排除性能较差的节点。该阈值被系统地变化，结果如表4倒数第二至最后一列所示。之前未使用阈值化的实验结果对应于 v= 0。可以观察到，随着 v的增加，性别识别得分逐渐提高。结合之前的实验结果表明，所提出的聚类方法对全网络任务具有显著的性能提升效果。

表4。使用阈值 v进行聚类估计的性别识别准确率（Acc）和 F1‐分数（F1）聚合结果，包含与不包含成员值（MV）加权的情况。结果基于200个场景。

Acc (%)	F1 (%)	no MV	MV v=0	MV v=0.5	MV v=0.9
		90	96	97	99
		89	96	97	98

5. 结论与展望

我们提出了一种将CFL无监督自适应于ASN场景的方法，该方法采用轻量级自编码器作为服务器，并在联邦学习轮次中对其中一部分参数进行重新初始化和再训练。此外，引入了一个额外的二分划分指示器以及一种生成簇成员值的新方法。实验结果表明，所提出的隐私感知方法通过簇到声源的距离度量以及多传感器性别识别任务的性能，表现出良好的聚类性能。未来工作计划在更多样化的声学条件下进行更全面的研究，并对隐私风险进行更详细的评估。

您可能感兴趣的与本文相关的镜像