无监督联邦学习估计麦克风簇

部署运行你感兴趣的模型镜像

使用无监督联邦学习估计声学传感器网络中的麦克风簇

摘要

本文提出了一种在声学传感器网络(ASN)中估计以源为主的 麦克风簇的隐私保护方法。该方法基于聚类联邦学习,并通过 采用轻量级自编码器模型将其扩展到无监督场景。该模型进一 步针对极稀疏数据的训练进行了优化。为了充分利用ASN应用 中麦克风节点聚类的优势,我们引入了一种计算簇成员值的方 法。我们通过基于聚类的度量和全网络分类任务验证了所提方 法的性能。

索引词

联邦学习,聚类,隐私,声学传感器网络,自编码 器,无监督

1. 引言

声学传感器成本的持续降低以及无线网络和移动设备的普及, 有助于建立(无线)声学传感器网络(ASN)所需的技术基础 设施。这些技术在众多应用中非常有用,范围从智能家居和环 境辅助生活[1]到机器故障诊断[2]和监控[3]。

通常,ASN应用需要处理多个音频源同时活跃的情况。在 许多此类场景中,若能获取麦克风节点及其与活跃声源之间关 系的信息,则可以增强ASN提供的优势。例如,在[4, 5]中, 基于手工设计的频谱特征表示来估计以源为主的麦克风簇,有 助于提升ASN整体的信号分类和源分离性能。

尽管对多个麦克风进行聚类和处理将为上述应用带来额外 优势,但在潜在不安全的(无线)通信环境中传输富含数据的 信号表示也会带来严重的隐私风险。即使在智能家居这样的小 规模场景中,窃听者连接网络并截获数据也构成了隐私隐患[6]。 此外,在当今隐私问题备受关注[7]、且诸如欧盟通用数据保 护条例(EU GDPR)[8]等隐私政策致力于推行“设计保护 隐私”原则的世界中,建议采用更加注重隐私的解决方案。因 此,本研究摒弃直接从原始音频数据提取特征表示的方法,转 而采用基于聚类联邦学习(CFL)[9]的更具隐私意识的解决 方案。通过这种方式,ASN节点(客户端)只需共享本地学习 的神经网络参数更新与中心节点(服务器)进行。此外,通过利用参数更 新向量之间的余弦相似性度量,可以实现客户端的层次聚类。

联邦学习(FL)[10, 11]和固有的CFL是为处理大量数据的 大规模分布式系统而设计的,迄今为止仅用于(半)监督学习应 用中,且这些应用需要有(弱)分类标签。然而,在我们的 ASN场景中,例如智能家居,聚类必须在相对较短的音频片段上 进行,最重要的是,无法获取训练标签。因此,将CFL适应于此 无监督场景,并在ASN背景下实现,成为一个具有挑战性的任务。

为了研究这一问题,我们希望在鞋盒房间内存在两个同时活跃的 声源的情况下,扩展并研究CFL在ASN背景下的应用。

本文的其余部分结构如下:我们首先讨论与先前工作的关 系,接着描述提出的方法。然后详细介绍实验场景和结果,并 以结论与展望作为结尾。

2. 与先前工作的关系

在与ASN相关的场景中,以源为主的麦克风簇的估计已通过多 种方法和不同目标应用进行了先前探索。这些方法包括使用相 干性模型[12]和能量衰减信息,以及特征向量[13]和频谱特征 [2, 4, 5, 14]。结合无监督模糊聚类,后者的方案获得了鲁棒的 聚类效果,并进而改善了信号分类结果。尽管具有上述优点, 但这些方法未包含隐私保护组件,因此无法满足现代隐私要求 [8, 15]。此外,有监督模糊聚类需要预先知道源的数量[16]。

我们提出的方法基于上述研究引入的概念,并侧重于使用 联邦学习(FL)的一种变体——CFL [9]来增加隐私保护层。 频谱特征虽然经过聚合,但仍保留敏感的隐私信息[17],,而 我们的方法将其替换为更具隐私保护性的、在本地学习得到的 神经网络参数更新。该方法本身已显著降低了隐私风险,若进 一步结合加密、差分隐私 [18],或编码方案 [19],隐私保护效 果更佳。为了利用CFL的隐私优势来解决无监督聚类任务,我 们建议在每个传感器节点部署一个轻量级自编码器,以支持无 监督训练。随后,CFL将在中央服务器上比较并聚类这些分布 式自编码器的本地更新,并将节点分配给相应的声源。为应对 数据稀缺情况下的训练问题,并进一步减少传输深度神经网络 (DNN)模型更新所带来的通信开销[20, 21],,我们限制了 传输参数的数量,并仅更新自编码器的一部分参数。

,其中平均归一化簇内(a)和簇间余弦相似度(b)被聚合,以确定簇参考节点,进而 用于计算MVs(c)。由于特定声学构型包含墙壁反射和混响,偶尔会观察到异常值。示意图涉及单一仿真场景。)

3. 基于CFL的无监督聚类

3.1. 联邦学习

联邦学习在[10, 11]中被提出,作为一种用于大规模隐私保护 的神经网络参数分布式学习方法。该方法通过一定数量的通信 轮次 τ进行三步迭代过程。第一步,客户端通过下载由列向量 θ τ表示的最新模型参数与服务器同步。第二步,每个客户端 i 在其各自的数据Di上执行随机梯度下降(SGD)[22],独立 优化其自身的模型参数 θ τ i 。第三步,客户端将它们的模型参 数更新∆θ τ i 上传至服务器进行聚合。
$$
\theta^{\tau+1} = \theta^\tau + \sum_{i=1}^{M} \frac{|D_i|}{|D|} \Delta\theta^\tau_i,
$$
其中 M是客户端的总数,D是它们的总数据集, | · | 表示数据集 的基数。

3.2. 簇式联邦学习

[9, 19]表明,当客户端的数据来自不同(incongruent)分布时, 不存在单一的 θ ∗能够同时最优地最小化所有客户端的损失。对于 出于这一原因,作者建议对具有相似(一致的)分布的客户端 进行聚类,并为每个生成的簇训练独立的服务器模型。所提出 的聚类准则使用节点权重更新向量之间的余弦相似度度量ai,j
$$
a_{i,j} = \frac{\langle \Delta\theta_i, \Delta\theta_j \rangle}{|\Delta\theta_i| |\Delta\theta_j|},
$$
其中 ⟨·, ·⟩ 表示内积, ‖·‖ 表示 L2 归一化。所有客户端的 余弦相似度ai,j 被收集在对称矩阵A中。

使用二分划分的层次聚类可以基于A递归应用。每次二分 划分步骤得到的两个簇 c1和 c2满足:最大跨簇余弦相似度始 终小于任一簇内最小的余弦相似度[9]。
$$
\max_{\forall i \in c_1, k \in c_2}(a_{i,k}) < \min\left( \min_{\forall i,j \in c_1}(a_{i,j}), \min_{\forall k,l \in c_2}(a_{k,l}) \right).
$$
该过程被递归重复执行,直到数据分布的一致性条件不再被违 反,从而获得新的子簇。对于每个簇 c,可通过分析权重更新 向量 ∆θc的均值和最大欧几里得范数来验证后者。
$$
\bar{\Delta\theta_c} = \left| \frac{1}{|c|} \sum_{i \in c} \Delta\theta_i \right| \quad \text{and} \quad \hat{\Delta\theta_c} = \max_{i \in c}(|\Delta\theta_i|).
$$
每当服务器已达到稳态解但某些客户端仍在向局部平稳点收敛 时,会观察到 ∆θc的 ¯ ˆ值较低,同时 ∆θc 的值较高。这表明数据分布不一致,并触发二分划分。

3.3. 无监督簇联邦学习

在其他研究中,联邦学习(FL)和簇联邦学习(CFL)被用于 改进基于服务器的分类模型,以实现高分类准确率。然而,我 们的工作仅关注获得良好的聚类结果,这些结果可进一步用于 增强后续的基于ASN的应用。此外,我们旨在寻求一种更通用 的解决方案,不依赖于标注数据的可用性,因此在聚类过程中 需要采用无监督方法。为此,我们提出使用具有较少可训练参 数的轻量级自编码器,并对其进行周期性重新初始化。

所提出的自适应方法以及标准的CFL算法[9],在算法1中进 行了示意图式描述。在执行联邦学习之前,先对轻量级自编码 器 h进行预训练,然后冻结除瓶颈层之外的所有层。后者在应 用CFL之前始终使用随机参数重新初始化。减少可训练网络参 数是必要的,以避免由于训练样本数量极少与完整模型参数数 量极大之间的巨大差异而导致的过拟合[23]。此外,处理更少 的参数可以降低计算和带宽成本[20]。

除了基于 ∆θ c ≤ ε 1 ˆ和∆θ c ≥ ε 2 的不一致性验证外,如[9], 中所介绍的,我们提出了一种补充性验证方法,以适应处理少量 训练样本时产生的较高∆θ c 和∆θ c 变化。该方法包括对 ¯ ¯梯度 |∇∆θ c | ≤ ε 3 进行 阈值化,其直觉依据是:较小的∆θ c 斜率表明系统已达到稳态解, 而不论 ∆ ¯ θ c 的绝对值如何。

3.4. 成员值

为了评估每个节点对其相应簇的贡献,我们提出在将客户端进 行二分划分形成簇 c1 和 c2 后,进行簇成员值 (MVs) 的计算。 我们首先计算每个客户端 i 的平均簇内和簇间相似度,并分别 将其堆叠成向量q和r,其中
$$
q_i = \frac{1}{|c_x| - 1} \sum_{j \in c_x \setminus {i}} a_{i,j} \quad \text{and} \quad r_i = \frac{1}{|c_y|} \sum_{k \in c_y} a_{i,k}
$$
对于 ∀i ∈ cx和(cx, cy) ∈{(c1, c2),(c2, c1)},其中 |·| 表示集合的基 数。我们进一步对q和r应用最小‐最大归一化,然后使用加权和计 算向量p,该向量包含每个客户端的聚合的平均余弦相似度值。
$$
p_i = \lambda \frac{q_i - \min(q)}{\max(q)- \min(q)} + (1 - \lambda) \frac{r_i - \min(r)}{\max(r)- \min(r)}.
$$
由于声源被建模为球面点源,靠近声源的节点接收到的信号与 其他主要受两个声源混响混合主导的节点接收到的信号差异较 大。这导致位于簇源附近以及边缘位置的节点具有较小的簇内 平均相似度值,因此需要额外的跨簇信息来区分这些节点。在 应用(6)之后,只有最靠近簇源的节点才会显示出较小的 pi值。 我们进一步选择每个簇中 pi值最小的节点作为参考节点,并计 算MVs向量 µ,即簇内各节点与其对应参考节点之间的余弦 相似度:
$$
\mu_i = a_{i,\arg\min(p_j)}, \quad \forall i, j \in c_x \quad \text{and} \quad c_x \in {c_1, c_2}.
$$
再次对向量 µ 应用最小‐最大归一化。图1给出了单个仿真场景 的示例。此外,还考虑了使用 µi = 0, ∀µi ≤ v 进行阈值化, 以忽略低MVs的节点。

4. 实验与结果

4.1. 数据库和仿真场景

在本研究中,我们采用LibriSpeech语料库的一个子集,即 train-clean-100,该子集包含251名说话人(125名女性, 126名男性)的有声读物录音,采样率为16 kHz。我们进一步应 用语音活动检测(VAD),并将数据重组为25006条长度10秒的语句。 接着,将数据集划分为Libri-服务器,包含157名说话人(79名女性, 78名男性),用于训练自编码器和性别识别器,以及Libri-clients,包 含94名说话人,用于执行聚类和推断说话人性别。

本研究仅考虑在尺寸为 4.7 × 3.4 × 2.4 m、混响时间为 T60= 0.34 s的鞋盒形房间内,两个同时活跃的源随机位于相对 象限的情况。部署在房间内的ASN包含 M= 16个麦克风节点, 这些节点同样随机分布,但需满足每个声源至少有三个节点位 于临界距离以内,从而保证直达分量能量高于混响能量。声源 和麦克风的随机分布共进行十次。对于每种生成的构型,从 Libri‐clients中随机选择20组性别平衡的说话人对,共形成 200个仿真场景。针对每个场景,我们随机选取每位说话人16 条语句,执行CFL,然后利用估计出的簇配置进行性别识别。

每个ASN节点 i都会接收到来自声源 s 1和 s 2的信号混合,表示为
$$
x_i(t) = s_1(t) * g_{s_1}^i(t) + s_2(t) * g_{s_2}^i(t),
$$
其中 $ g_{s_j}^i $ 是从声源 j到节点 i的脉冲响应,使用CATT Acoustic通过锥形追踪[25]进行模拟。

4.2. 服务器预训练

所提出的自编码器 h的架构详见表1。该自编码器被训练用于 重构对数梅尔频带能量(LMBE)输入特征表示 Y。后者针对 每个10秒语句,如[26]中所述,通过短时离散傅里叶变换(STFT)提取,窗长为 L₁ = 0.064 s,步长为 R₁ = 0.032 s,并结合 K= 128个梅尔滤波器。训练在Libri‐server数据集 上进行300个周期,使用学习率为 lr = 0.1的SGD优化器。在整 个模型参数集Θ上最小化的损失函数是输入与重建特征向量之 间的均方误差(MSE):
$$
\min_\Theta L_{\text{mse}}(Y, \hat{Y}) = \min_\Theta \frac{1}{N} \sum_{n=1}^{N} (y_n - \hat{y}_n)^2.
$$
在模型经过训练后,除了子集 θ之外的参数均被冻结。可训练参数的初始数量因此减少为 O₂ = 841。该子集对应于表1中第5层的参数。这些 参数将按照下一小节所述进一步重新初始化并进行训练。

表1. 自编码器 h的神经网络架构。

输入 操作符 ch. 步幅 卷积核/池化 激活
1 128 × 128 二维卷积 6 1 5×5 ReLU
2 6 × 124 × 124 最大池化 - 2 2×2 -
3 6 × 62 × 62 二维卷积 16 1 5×5 ReLU
4 16 × 58 × 58 最大池化 - 2 2×2 -
5 16 × 29 × 29 密集 16 - - ReLU
6 16 × 58 × 58 反池化 - 2 2×2 -
7 6 × 62 × 62 反卷积2D 6 1 5×5 ReLU
8 6 × 124 × 124 反池化 - 2 2×2 -
9 6 × 124 × 124 反卷积2D 1 1 5×5 Sigmoid

4.3. 聚类

子章节4.2中详细介绍的预训练自编码器 h被用于无监督CFL,如 算法1所示。在(9)中引入的均方误差损失函数仅作用于参数子集 θ, 因为其余参数已被冻结。我们通过实验设置了ε₁= 0.0134、 ε₂= 0.005、 ε₃= 0.0007和 maxτ= 25通信轮次。在每一轮 τ中, 总共 M= 16个客户端各自训练一个轮次,并使用 lr= 0.1。客户 端的输入特征表示 Yi基于10秒时域信号 xi(t)计算得出,具体方法 见(8),其中 s₁和 s₂选自Libri‐clients数据集。根据(6)定义的 MV值使用 λ= 0.5计算。

为了评估和比较聚类性能与最先进的解决方案,我们采用 后者中从簇 cx到声源 sz的归一化簇到源距离作为指标
$$
\tilde{d} {c_x}^{s_z} = \frac{|\rho {s_z} - \bar{\rho} {c_x}|}{|\rho {s_1} - \rho_{s_2}|}, \quad \forall c_x \in {c_1, c_2}, \; s_z \in {s_1, s_2},
$$
其中 $\rho_{s_z}$ 是声源 sz的几何位置,$\bar{\rho} {c_x}$ 是由其对应的MV值加权 的分配给簇 cx的节点 i的几何位置的平均值。表2显示了在所 有200个模拟场景上平均的 $\tilde{d} {c_x}^{s_z}$。

表2. 归一化簇到源距离 $\tilde{d}_{c_x}^{s_z}$ 从簇 cx到声源 sz,在200个场景上的平均值。

c₁ c₂
s₁ 0.15 0.91
s₂ 0.87 0.14

可以观察到,$d_{c_1}^{s_1}$ 和 $d_{c_2}^{s_2}$ 的值较低,表明MV加权簇中心各 自接近其主导源。较高的 $\tilde{d} {c_1}^{s_2}$ 和 $\tilde{d} {c_2}^{s_1}$ 值证实,MV加权簇中心同 时远离其对立源。获得的指标表明具有良好的簇预测,可与[4] 中的结果相媲美。

4.4. 性别识别

为了从实用性角度评估聚类性能,我们进一步实施了性别识别 任务。为此,我们首先在Libri‐server数据集上训练一个性别 识别模型 e,其中部分纯净信号被随机增强为男女混响信号混 合。模型结构如表3所示,输入特征表示 Y从 L₁ = 0.064、 R₁ = 0.02和 K= 40中提取。训练过程进行13个训练轮次,使 用交叉熵损失函数和SGD优化器(参数为 lr = 0.01)。测试在 所有200个样本上进行。

表3. 性别识别器 e的神经网络架构。

输入 操作符 ch. 步幅 卷积核/池化 归一化 激活 丢弃
501×40 二维卷积 32 1 5×40 Yes ReLU -
497×32 二维卷积 64 1 5×1 Yes ReLU -
493×32 二维卷积 32 1 3×3 Yes ReLU -
491×30 最大池化 - 1 92×1 - - -
99×32 二维卷积 64 1 3×3 Yes ReLU -
97×30 最大池化 - 1 92×1 - - -
1×64 密集 64 - - - ReLU 50%
1×64 密集 2 - - - Softmax -

上述仿真场景,利用Libri‐clients的语句生成聚类估计。 所提出的评估指标为准确率(Acc)和 F1‐分数(F1),其 中节点的真实性别标签由脉冲响应中首峰延迟最短的声源的性 别决定。簇的真实性别标签由其组成节点的真实性别标签的众 数决定。簇的预测性别标签是其节点预测性别标签的众数。由 于每个节点处理16条语句/场景,其性别标签由这些语句上的性 别预测结果的众数决定。评估指标在全部200个模拟场景上取 平均。结果如表4第一列所示。

上述结果通过考虑由MV值指示的节点主导声源接近度而 得到进一步改善。在这种情况下,簇的预测性别标签由MV加 权后的节点预测之和除以MV值之和进行归一化得到。从表4的 第二列可以看出,MV加权对性别识别性能具有积极影响,因 为声源与节点之间的距离越小/越大,意味着混响和信号干扰越 少/越多,从而导致节点级性别预测的准确率更高/更低。

此外,在另一项实验中,将小于阈值 v的MV值设为0,以 排除性能较差的节点。该阈值被系统地变化,结果如表4倒数 第二至最后一列所示。之前未使用阈值化的实验结果对应于 v= 0。可以观察到,随着 v的增加,性别识别得分逐渐提高。 结合之前的实验结果表明,所提出的聚类方法对全网络任务具 有显著的性能提升效果。

表4。使用阈值 v进行聚类估计的性别识别准确率(Acc)和 F1‐分数(F1) 聚合结果,包含与不包含成员值(MV)加权的情况。结果基于200个场 景。

Acc (%) F1 (%) no MV MV v=0 MV v=0.5 MV v=0.9
90 96 97 99
89 96 97 98

5. 结论与展望

我们提出了一种将CFL无监督自适应于ASN场景的方法,该方 法采用轻量级自编码器作为服务器,并在联邦学习轮次中对其 中一部分参数进行重新初始化和再训练。此外,引入了一个额 外的二分划分指示器以及一种生成簇成员值的新方法。实验结 果表明,所提出的隐私感知方法通过簇到声源的距离度量以及 多传感器性别识别任务的性能,表现出良好的聚类性能。未来 工作计划在更多样化的声学条件下进行更全面的研究,并对隐 私风险进行更详细的评估。

您可能感兴趣的与本文相关的镜像

Stable-Diffusion-3.5

Stable-Diffusion-3.5

图片生成
Stable-Diffusion

Stable Diffusion 3.5 (SD 3.5) 是由 Stability AI 推出的新一代文本到图像生成模型,相比 3.0 版本,它提升了图像质量、运行速度和硬件效率

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值