CSafe:一种用于提升城市环境中建筑工人安全的 智能音频可穿戴平台
1 引言
与车辆相关的事故是造成建筑工人受伤的主要原因之一。事实上,机动车碰撞事故是美国与工作相关死亡的第一大原因[2, 3]。这些事故部分源于工人因工作而分心。为了帮助减少工人相关的车辆事故数量,我们推出了 CSafe,一种低成本的可穿戴设备和智能手机平台,可轻松集成到常见的可穿戴设备中,如头盔、帽子和耳机。CSafe利用低功耗麦克风阵列、信号处理和机器学习分类器来检测并定位驶来的车辆,并向建筑工人实时发出警报。
建筑工人安全存在两个主要挑战,使其成为一个棘手的问题。第一个挑战是我们的可穿戴设备为电池供电且资源受限,需要实时运行所有的噪声滤波、车辆检测和车辆定位机器学习分类器。具体而言,我们的系统需要在车辆经过用户之前尽早检测并发出警报,以便为工人留出充足的反应时间。
第二个主要挑战是建筑工地非常嘈杂。工人在路边操作的电动工具所产生的噪音可能比接近的车辆的发动机和轮胎声音高出几个数量级,这将对任何我们可能决定实施的声学检测或定位算法产生不利影响。
我们采用一种基于音频的方法,在资源受限的可穿戴设备中实时检测、定位驶来的车辆并向用户发出警报。利用摄像头或激光雷达等能够提供更丰富环境信息的传感器的相关研究通常具有较高的计算和电池消耗需求,难以实现长续航的电池供电平台。尽管音频提供的环境信息不如摄像头等传感器丰富,但标准麦克风具备360度覆盖能力,并且在采样和特征提取方面所需的计算量更小。因此,我们选择构建一个由多个麦克风组成的阵列,并通过低功耗嵌入式平台进行采样的硬件平台。该嵌入式平台负责特征提取,并将数据无线传输至功能更强的智能手机平台,后者运行信号处理和机器学习算法,实现车辆检测与定位,并向用户发送警报。我们的嵌入式平台可轻松集成到常见的可穿戴设备中,如耳机、头盔和帽子。在本研究中,我们选择将硬件平台集成到建筑工人头盔中,如图1所示。
为了应对建筑工地中可能出现的高音量施工工具,我们提出了一种高效节能的声学过滤架构,该架构在反馈配置中结合了基于内容的分离和空间分离,利用已知或学习得到的声音模型,迭代地去除噪声并增强目标声音。我们的目标是证明,这种新颖的滤波架构可以与现有的车辆检测器结合使用,以提升在嘈杂施工现场环境中的性能,而不是完全取代现有检测器。我们首先开发了一种名为概率模板匹配(PTM)的新型噪声滤波算法。PTM是一种低计算量的源分离算法,利用噪声的统计“模板”来滤除这些声音。接下来,我们开发了一种新颖的噪声滤波架构,该架构智能地利用PTM和多通道滤波方法,从环境中强健地滤除施工工具声音。我们的新型滤波架构与现有的声源分离研究不同之处在于,我们在反馈架构中智能地结合了单通道源分离和多通道源分离,以随时间更有效地去除强烈的施工噪音。我们证明,该新型滤波架构可以在低资源嵌入式+智能手机平台实时运行,并且在车辆检测方面比其他最先进的源分离算法最多提升12%。
本文做出了以下贡献:
- 我们创建了低成本的端到端可穿戴系统CSafe,可在工具噪声比接近的车辆响数个数量级的环境中,为建筑工人提供关于迎面而来的车辆的实时警报。我们进行了真实世界实验,结果显示,相较于现有系统,车辆检测性能提升了16%,定位误差减少了30◦。
- 我们开发了一种新颖且轻量级的单通道源分离算法,称为概率模板匹配(PTM),该算法利用学习得到的施工工具声音的统计模型或“模板”来将其过滤出来。
- 我们开发了一种自适应且可选择的噪声滤波架构,允许用户和应用程序选择特定类型的施工声音进行过滤。我们的架构在一个自适应反馈架构中集成了PTM和多通道源分离方法,以随时间鲁棒地滤除强烈的施工工具噪声。
- 我们展示了通过将我们提出的新颖自适应滤波架构应用于车辆检测,整体车辆检测准确率最多可提高15%。我们还表明,与其他最先进的音频源分离方法相比,我们的架构可使车辆检测率最高提升12%。
2 相关工作
行人安全与建筑工人安全的目标类似,都是旨在减少车辆事故的数量。然而,这两者之间的技术挑战却大不相同。在建筑工人安全领域,施工工具产生的噪音比接近的车辆高出多个数量级,这种情况在行人安全中通常不会遇到。在这些场景中,loud工具的声音有效地掩盖了驶来的车辆的声音。
关于行人安全的现有研究工作大致可分为两类:基于通信的和基于感知的。基于通信的安全系统利用车对车、行人以及基础设施通信协议(如专用短程通信(DSRC)甚至Wi‐Fi)的发展,向附近人员直接传达车辆的存在[4, 5]。然而,目前大多数智能手机、车辆和城市基础设施并未原生支持这些协议,导致这些方法的广泛采用在当前不可行。
基于感知的解决方案为用户配备传感器,以检测附近的车辆并向人们发出警报。基于图像的传感器(如摄像头和激光雷达)常用于包括车辆安全在内的多种应用中。这些方案利用机器学习和深度学习技术,已证明能够检测附近物体并预测附近车辆的运动[6–8]。然而,这些方案均具有高采样和高计算需求,难以集成到低功耗可穿戴设备中。另一个问题是,激光雷达和摄像头都提供丰富的感官信息,引发用户隐私问题。
被动测量周围音频的麦克风可能无法像激光雷达或摄像头等传感器那样提供丰富的感知信息,但其能够为用户提供360度覆盖,并且功耗较低。已有研究表明,在多个领域中,音频可用于检测和/或定位多种不同的声音[9–11],并已广泛应用于各种移动和可穿戴应用中以解决实际挑战[12–14]。[15]提出了一种基于智能手机的车辆检测系统,但要求用户持续手持智能手机,这对工人而言并不实用。[16]提出了一种系统,该系统在车辆上安装超声波发射器,并利用智能手机检测发出的啁啾模式。然而,要求所有车辆都配备超声波发射器使得该方法的大规模推广变得困难。[1, 17–20]提出了使用智能手机系统以及嵌入式可穿戴系统的麦克风来检测和定位车辆的系统。然而,这些研究未考虑非车辆噪声远高于接近车辆声音的情况,因此难以用于保障建筑工人的安全。
有许多商业产品和研究工作致力于建筑工人安全,包括用于监测疲劳和姿势的夹克、头盔和智能手机系统[21, 22]或提供降温与加热缓解[23]。这些方法无法对工人发出有关接近的车辆等即将到来的危险的警报。还有一些研究和产品将传感器(例如射频识别(RFID)或proximity sensors)部署在建筑工人或大型设备上。这些传感器可用于在事故发生时快速定位工人[24]或向工人发送警报如果他/她过于靠近危险设备[25]。这些研究和产品需要在建筑工地进行安装阶段,且无法考虑到经过的非施工车辆。
3 声源分离与选择性噪声滤波概述
在资源受限的平台上实时使用音频信号来检测和定位车辆非常困难。我们的研究问题更具挑战性,因为建筑工人在极其嘈杂的环境中工作,现场普遍存在大型机械和工具产生的噪声。
为了从环境中清除和去除过强的施工工具声音,我们考虑将音频源分离方法集成到CSafe中。我们认识到,在噪声滤波和源分离方面已有数十年的研究成果,无法在本文中涵盖该主题的所有方面。因此,我们将这些研究工作概括为两大类:空间分离和基于内容的分离,接下来将分别进行讨论。
3.1 空间源分离
空间源分离技术依赖于在不同位置布置多个麦克风,对环境进行多点观测。由于这些方法需要多个麦克风,因此也被称为多通道源分离方法。属于此类的一些方法包括波束成形[26–28],通用自适应滤波技术(例如最小均方和维纳滤波)[29, 30],盲源分离技术(例如独立成分分析)[31, 32]。除了盲源分离技术和自适应滤波外,空间源分离技术通常需要知道声源的位置才能进行分离。因此,许多研究假设声源位置是预先已知的,但在动态城市环境中这一假设并不成立。
传统的盲源分离技术不需要预先知道源的位置。然而,这些技术在现实场景中通常表现不佳[33]。
自适应滤波技术(如最小均方)通过观测第二个相关的噪声信号来滤除噪声。在音频可穿戴设备的背景下,我们需要采用双麦克风设置,其中一个麦克风用于观测环境中的车辆。在施工环境中,该麦克风还会同时观测到施工工具的声音。第二个“噪声”麦克风理想情况下应仅观测到施工工具的噪声,从而用于净化第一个麦克风的信号。然而,在实际可穿戴设备中,麦克风的位置会非常接近如果我们将麦克风集成到安全帽中,那么两个麦克风将接收到相对相似的信号(例如,“噪声”麦克风也会接收到过往车辆的声音)。去噪过程不仅会降低施工工具的声音,还会削弱过往车辆的声音,从而对车辆检测产生不利影响。
鉴于盲源分离和自适应滤波在这些方面的不足,我们决定将波束成形的思想融入到我们的滤波架构中(第4.2节)。
3.2 基于内容的分离
第二类源分离算法是基于内容的分离,该方法利用对环境中特定声音和噪声的学习得到的知识和统计模型来将其滤除。由于这些方法需要数据但不需要多通道音频,因此这类方法也被称为单通道源分离方法。属于此类别的技术类别包括但不限于字典学习(例如非负矩阵分解或NMF)和深度神经网络方法[34–37]。
许多执行源分离的深度学习架构需要数以百万计的权重/参数以及大量的训练数据。例如,[36]中提出的网络需要近200万个参数,才能从以16kHz采样的单通道音频中分离出两个声源。其次,源分离神经网络必须使用人工混合信号进行训练。这是因为神经网络需要真实信号来调整训练时的权重;在我们的应用中,真实信号将是孤立的车辆声音。然而,在现实世界的混合信号中无法提取出孤立的车辆声音,因为车辆声音已被施工工具噪声污染。满足这两个要求的网络将无法为滤除施工噪声以及改善车辆检测与定位提供一种鲁棒且低功耗的解决方案。我们将在第5节中通过实验验证这一点。
字典学习方法会学习一组基或“字典”,以捕捉声音类型中的大多数重要特征。当新的信号到达时,会进行另一次优化,以发现观测信号所包含的每个基或“词”在“字典”中的系数或权重。
我们在实验字典学习方法(如NMF)时发现,分离质量可能非常差,因为字典学习试图将整个信号精确地分解为所学“词”的加权和。然而,我们所学习的“字典”可能并未包含所有存在声音的表示。例如,如果我们为施工声音学习一个“字典”,而此时有人开始说话,NMF会试图将施工声音的“词”拟合到语音中,从而导致结果不佳。
许多基于内容的分离研究都做出了这样一个假设:我们观测到的声音类型都有相应的模型可用。这一假设在动态环境中并不总是成立,而且要为环境中每种可能的声音都建立模型也是不现实的。这些因素促使我们需要一种快速的基于内容的分离算法,该算法能够分离并滤除我们已有模型的噪声,同时保持其他我们可能缺乏先验知识的声源完整。
鉴于基于内容的方法存在这些不足,我们开发了一种新颖的轻量级单通道源分离算法,称为概率模板匹配(PTM),该算法利用学习到的施工声音模型来滤除这些噪声。我们将PTM集成到第4.3节中描述的一种新型滤波架构中,该架构使用噪声检测器根据环境中施工声音的主导程度来控制PTM提供的滤波强度。通过这种方式,我们的架构仅需要噪声(施工工具)的模型,而无需像字典学习算法通常所要求的那样掌握环境中所有其他声音(例如车辆)的信息。此外,该算法也类似于第3.1节讨论的通用自适应滤波技术,但不需要近距离的第二个麦克风,因为这样的麦克风很可能会同时接收到并削弱车辆声音。
4 CSAFE滤波架构
为了实现稳健的城市和施工噪声分离,我们提出了一种新型的自适应滤波架构,如图2所示,该架构结合了基于内容的分离和空间声源分离技术。我们的架构包含了噪声检测模块和多声源定位模块,这两个模块是实现基于内容分离和空间分离所必需的,并通过反馈回路随着时间自适应地学习更优的滤波系数。我们还提出了一种新颖且轻量级的基于内容的分离技术,称为概率模板匹配(PTM),该技术能够用户和应用程序可以调节CSafe提供的噪声抑制程度。我们的完整架构允许用户注入自己录制的附近工具声音,以实现更鲁棒的噪声滤波。在接下来的小节中,我们首先介绍我们提出的新型基于内容的分离算法——概率模板匹配。接着,我们介绍如何将这一新型基于内容的分离算法与空间分离模块相结合,构建一种自适应滤波架构,该架构智能地结合多通道和单通道分离技术,更有效地滤除施工噪声,并提升车辆检测与定位能力。本文中展示的所有波形、混合信号以及定量分析图表均基于真实世界中的空中混合录音生成,而非通过数字方式混合声源,后者是许多提出源分离算法的研究中常用的方法。这样做是为了确保我们的示例和方法能够真实反映实际应用场景。
4.1 基于内容的分离:概率模板匹配
我们提出了概率模板匹配(PTM),一种轻量级的基于内容的源分离算法,用于滤除施工噪声,同时减少对环境中其他重要声音(如车辆)的过度抑制。该算法利用城市环境中常见噪声的“模板”来统计提取并滤除这些噪声。PTM不需要了解环境中每种声源的信息即可实现噪声滤波,这与传统的字典学习方法不同。
4.1.1 概率模板匹配
概率模板匹配(PTM)的核心思想是:给定一段音频窗口,生成一个滤波器或一组系数 αi(n),其中 →X−(n)=[|x(ω1, n)|, |x(ω2, n)|,…, |x(ωB, n)|] T表示时间窗口 n的时频表示的幅度,使得滤波后窗口 →−Z Λ(n)属于类别 c0噪声的概率最小化。接下来总结我们的输入(→X−(n))和输出( →−Z Λ(n)和αi( n))的定义。
→X−(n)=[|x(ω1 , n)|, |x(ω2 , n)|,…, |x(ωB , n)|] T
Λ n = diag(α1(n),…, α B(n))
→−Z Λ(n)= Λ n →X−(n) B表示我们在时频信号表示中的频率区间数量。 diag算子创建一个大小为 B x B的对角矩阵,其中非对角元素均为零,且对角元素填充了滤波系数 α1(n)…, αB(n)。
我们首先假设希望滤除的强噪声 c0可以通过一个由高斯分布表示的“模板”来描述:
c0 ∼ N(−→ μc0, Σc0)
基于此假设,在时间步 n处包含噪声c0的观测信号通过从 N(−→ μc0, Σc0)中抽取一个 B维向量生成。该向量表示在时间步 n处噪声 c0的时频表示,其中每一维对应噪声的一个不同频率分量。含噪信号 →X−(n)随后通过叠加环境中其他未知信号(例如车辆)生成。如果 c0在环境中大多数其他声音之上具有高能量,则观测信号 →X−(n)属于噪声类别c0的概率 P(→−Z Λ(n)|c0)将非常高。我们的目标是生成滤波系数 αi(n),以降低该概率。
然而,如果我们不加任何约束地最小化该概率,所有系数都将趋向于0,从而抵消环境中所有声音。为了避免这种情况,我们引入了一种新颖的约束,得到如公式1所示的以下优化问题。
arg min
α 1 ,…,α B P(→−Z Λ(n)|c0) (1)
s.t.D(→−Z Λ(n)|| →X−(n))< β
D(→−Z Λ(n)|| →X−(n))= B
∑ i=1(→−Z Λ(n)i →X−(n)i − log →−Z Λ(n)i →X−(n)i − 1)(2)
我们的目标仍然是尽可能最小化 P(→−Z Λ(n)|c0),以从观测中去除尽可能多的噪声 c0。散度约束 D(→−Z Λ(n)|| →X−(n))的作用是将滤波信号与原始信号之间的变化量控制在阈值 β之内,从而避免滤波系数完全消除环境中的所有声音。我们采用静态散度约束而非另一种概率约束,因为我们无法假设已拥有环境中每种可能声音的模型。由于环境中可能出现的声音种类数量无限,假设我们知晓所有声音是不可行的。此外,我们选择使用伊藤‐斋藤散度度量,因为它对低能量和高能量的频率区间具有相等的权重,这在音频处理应用程序[38]中具有优势。
使用拉格朗日乘子法优化该损失函数可得到公式3。
L= log(P(→−Z Λ(n)|c0))+ λD(→−Z Λ(n)|| →X−(n)) (3)
最后,我们通过对损失函数L关于滤波系数 αi(n)求偏导数,并将其代入公式4所示的梯度更新中,得到每个时间窗口的梯度更新。
αi(n+ 1)= αi(n) −r ∂L ∂αi(n) (4)
需要注意的一个细微之处是,学习率 r和λ权重项是可由应用程序调节的参数,可用于增强或减弱噪声抑制效果。较高的抑制水平会去除更多的噪声,但也会增加将环境中非噪声声音误删的风险。相反,较低的抑制水平去除的噪声较少,同时也会更少地删除环境中的非噪声声音。通过实验,我们发现 λ= 1e −5和 r= 1的取值consistently能够产生最佳的分离效果,并显著提高车辆检测率。我们在第5和第8节的评估和实验中使用了这些取值。
展示了使用高置信度“模板”进行PTM提取过 程的示意图。可以看出,如果我们对声源频率成分更有 把握(方差较低),PTM将提取出更接近模型模板均 值的系数或生成的“预测值”。b)然而,如果频率成 分的模型具有较高的方差(例如,我们对频率成分的值 较不确定),PTM提取出的系数将远离模板的均值。)
图3展示了PTM背后概念的可视化。在这四个图中,为了便于可视化,我们将信号和模型简化为一维(B= 1)。每个图中显示了一个概率分布,对应于高斯“模板”概率分布。图3a展示了一个我们具有高置信度的模板,这对应于低协方差或方差的模板。由于我们对模型非常有信心,PTM估计并提取出的噪声值非常接近“模板”均值。图3b展示了一个低置信度的模板。这意味着在该维度上,我们观察到的值波动较大,从而产生具有高方差的“模板”。因此,PTM更为保守,滤除的信号较少。
图4展示了干净的经过车辆声、破碎机声以及这两种声音在真实世界环境中通过空气混合并被录制的示例。行驶车辆产生的声音主要来自其发动机以及轮胎与地面的摩擦。因此,在本研究中,我们主要关注检测和定位接近的车辆所发出的这些声音。作为与神经网络方法的对比,我们使用基于最先进的神经网络的源分离算法(MMDenseLSTM[36])对混合信号进行了清理。我们使用车辆声与施工噪声的人工混合信号来训练 MMDenseLSTM网络,具体方法如第5节所述,因为无法使用在真实世界环境中录制的混合信号来训练源分离神经网络。
我们在图4d和图4e中展示了滤波后的结果。通过目视检查可以看出,PTM能够比其他方法恢复出更多干净的车辆声音特征经过测试的神经网络方法。神经网络实际性能较差的一个主要原因是无法使用真实混合信号来训练用于源分离的神经网络。使用人工混合可能无法完全捕捉真实环境中声音通过空气混合过程的所有复杂性。PTM相较于基于神经网络的方法的一个优势在于,它仅需要来自单一声源(例如施工声音)的模型和数据,而不需要声音混合信号(例如车辆+ 施工声音)以及分离的纯净信号(例如车辆),从而避免了在训练过程中使用人工混合信号。由于CSafe是一个建筑工人安全平台,只有当 PTM和CSafe整体滤波架构能够提升车辆检测能力时,该架构才对系统有益。我们在第5节中展示了支持这一点的结果。
尽管我们将频域噪声“模板”的分布表示为高斯分布,但我们将在第5节中证明,利用PTM的自适应噪声滤波架构仍能比最先进的源分离方法更有效地提升车辆检测性能。
最后需要说明的是,我们假设噪声 c0的“模板”是可获取的。这意味着需要一个噪声检测器来检测噪声的存在,并提供正确的“模板”,以便PTM用于滤除噪声。接下来我们将描述并解决这两个问题。
4.1.2 噪声检测与模板学习
在许多基于内容的分离研究中,一个常见的假设是,试图分离的声音存在于音频流中。然而,在真实且动态的场景中,这一假设并不总是成立。因此,需要一个噪声检测器来判断是否执行噪声分离。第二个问题是,如何学习和获取用于滤波的“模板”,如第4.1.1节所述。我们引入了一个噪声检测器,以同时满足检测环境中噪声存在的需求,并作为学习和提供PTM所需模板的方法。
一般来说,声音事件检测器的工作方式如下:
P(X ∈ c)> β
X是信号的输入表示(例如频率频谱),而 c是我们希望检测的声音类别。如果我们的输入观测属于类别 c噪声的似然概率大于某个阈值β,则我们将在该窗口中检测到声音 c。
我们以类似的方式构建噪声检测器,并选择使用高斯混合模型(GMM)来对每一类噪声的概率分布进行建模。高斯混合模型(GMM)通过高斯分布的线性组合来对数据中的子群体进行建模,从而表示概率分布。每个高斯分布可以用均值和协方差矩阵来描述。均值是概率最大的值如果我们的信号确实是试图检测的特定类别声音,那么我们的特征将取该值;这也就是说,构成我们高斯混合模型噪声检测器的高斯分布的均值可以作为PTM的模板。协方差是对模板不确定性的度量,也将在第4.1.1节所述的PTM中使用。通过这种方式,我们不仅创建了用于智能应用基于内容的分离所必需的噪声检测器,还可以利用高斯混合模型对数据的建模方式,提供并学习基于内容的分离算法PTM所需的模板。
4.1.3 泛化能力
声源分离与许多通过机器学习和深度学习解决的问题一样,存在严重的泛化能力不足问题。当我们提到泛化能力时,指的是我们的模型和算法对未见过的目标噪声实例进行分离和处理的能力。我们并非指架构能够对所有不同类型的声音进行去噪。我们只关注嘈杂的施工噪音,因为这些声音在环境中最有可能掩盖过往车辆发动机和轮胎发出的声音。其他城市噪声,例如经过的动物或行走的声音,通常音量较低且出现不频繁;相比工人持续操作电锤等场景,训练良好的车辆检测器更容易应对这些情况。
在CSafe中,我们提供了建筑工地常见电动工具声音的预训练模型。然而,我们意识到这些模型不可能涵盖每一种工具类型。因此,我们允许用户选择录制其工作环境中的声音,使CSafe能够即时构建针对当前工作环境定制的声音模板和噪声检测模型。
4.2 空间分离:一种滤波器组方法
大多数空间源分离方法需要预先知道声源的位置。由于环境中可能存在多个我们需要识别(例如车辆)或过滤掉(例如嘈杂的施工噪音)的声源,因此我们首先需要识别并定位这些声源,然后才能进行空间分离。
4.2.1 多源定位
一种常见的定位方法是估计声源到达阵列中多个麦克风之间的相对延迟,并利用这些估计值进行三角测量,从而估算到达方向。通常使用基于功率的度量(如互相关)来实现此目的。首先,在不同麦克风之间计算互相关不同时间偏移下的麦克风。具有较高偏移的 -最大互相关被估计为相对延迟。这些麦克风之间的相对延迟随后可被输入到机器学习分类器中,或直接用于三角测量声源方向。该架构曾用于类似的音频安全平台[1]。
使用基于功率的度量并选择最大峰值的主要缺点是,它倾向于定位最响亮的声音源。在建筑工地中,这通常是工人正在操作的工具,而非接近的车辆。因此,有必要 -有必要考虑能够估计环境中多个声源位置的方法。
有许多研究介绍了执行多声源声学定位的方法,包括MUSIC/ESPRIT及其变体[39, 40]。这些方法均通过生成和分析在每个关注方向上存在的声源的概率分布来工作。该概率分布是通过比较阵列中麦克风之间的相位差与给定阵列中各麦克风位置及来自特定方向的声源所预期的相位差而生成的。一旦生成了所有方向上的该概率分布,便会采用峰值检测算法来检测显著的峰值和声源。每一步所采用的具体细节和算法因方法而异。
我们采用[26]中提出的算法进行多声源定位,因为该方法通过简化降低了在不同方向上生成声源存在概率分布的计算复杂度。像MUSIC和ESPRIT这样的算法采用子空间方法生成概率分布,首先将单个频率 f中的能量根据每个方向出现声源的概率分配到不同的方向,然后对所有感兴趣的频率重复并汇总这一过程。在每个频率上生成概率分布显著增加了计算量,使得这类算法难以用于实时应用。[26]中提出的算法通过将特定频率的全部能量仅分配给单一方向进行简化,从而减少了计算量。
定位算法通常不会考虑我们正在定位的声音的内容或类别。这意味着,只要单个声音足够响亮,我们的声源定位模块就能够检测并定位该声源。在我们的滤波架构降低了施工工具声音的能量后,我们期望能够观察到车辆声音的更大能量,从而被检测和定位。这意味着我们用于在环境中定位噪声源的声源定位模块也将同时作为我们的车辆定位模块。
(左)更宽且方向性较弱的滤波器。(右)保 留了更多原始信号的能量。b)(左)方向性更强的滤波 器。(右)以更大的信号失真为代价,滤除了来自其他 方向的更多能量。两种场景中显示的信号均通过四麦克 风均匀环形阵列录制,同时使用不同的扬声器重复播放 车辆和电锤声音。滤波后的信号(右侧图)是通过对信 号应用滤波器(左侧图)以减弱施工工具声音而生成的。)
4.2.2 滤波器组空间分离
空间分离方法(如DUET算法和波束成形)会创建滤波器,应用于麦克风通道,以削弱与来自声源方向信号相位不一致的频率分量[41]。自适应波束成形方法通过基于代价函数持续更新滤波器来实现这一目标,该代价函数捕获并改善接收信号的某些质量度量(例如信噪比)[27]。为了降低相对于自适应方法的计算需求,并允许应用和用户可调性,我们采用静态方法,即预生成一个滤波器组,并根据每个频率分量与来自声源方向信号的相位对齐程度,将其应用于相应通道。图5展示了我们提出的方法。
对于每个方向 d,我们生成一个以方向 d为中心的受限高斯窗,其方差为 σ 2。该方差项可用于调节滤波器对其他方向的抑制程度。我们通过将频谱中每个频率的能量乘以对应于该频率所分配方向的滤波系数来应用此滤波器。每个频率所分配的方向是在执行声源定位时生成的,如第4.2.1节所述。图5a显示了一个示例一个具有较高方差和更宽波束宽度的滤波器,能够减少对不与方向对齐的频率的能量抑制。而如图5b所示,具有更窄波束和较低方差的滤波器,则会抑制来自其他方向的更多能量,但也可能同时去除环境中其他声音(例如车辆)所对应的更多能量。
在本文所述的所有实验以及CSafe可穿戴平台中,我们选择在 360◦范围内均匀扫描d= 24个方向,从而实现 15◦的精细度。我们选择该参数是因为它在车辆定位和噪声分离方面提供了足够的定位精细度,同时成本足够低,能够保持实时性能。
4.3 完整滤波架构
在本节中,我们将迄今为止提出和介绍的所有不同组件整合起来,形成CSafe的自适应滤波架构,以有效滤除环境中常见的城市施工噪声。图2展示了CSafe的完整噪声滤波架构。首先,我们从麦克风阵列中采集一段音频窗口,并计算每个通道的快速傅里叶变换(FFT)。接着,在反馈回路中通过自适应PTM算法学习得到的基于内容的分离滤波器被应用于清理音频通道。然后,将各个独立的通道作为输入提供给声源定位算法,以获得声源位置。声源位置和经过清理的麦克风信号随后被输入到空间分离模块。该空间分离模块对环境中各个独立声源进行分离。每个分离出的声源随后被送入噪声检测器,以判断哪些声源为噪声。随后,噪声源被传入 PTM模块,在其中通过调整并应用基于内容的分离滤波器,去除环境中所有已检测到的噪声,从而完成循环。未被识别为噪声的声源则被送入车辆检测器,以判断是否存在车辆。我们采用由50棵树组成的随机森林作为车辆检测器,这与本文所述最先进的音频安全平台[1]中所使用的车辆检测器相同。
5 CSAFE滤波架构真实世界评估
在本节中,我们将比较CSafe的施工噪声滤波架构(在第4节中介绍)在车辆检测方面的改进效果,与现有的噪声滤波算法以及最先进的源分离神经网络进行对比。在本节中,我们所有的图表和定量分析均基于真实环境中的声音录音,而非通常使用的人工混合信号。
为了生成该数据集,我们创建了一个直径为15厘米的四麦克风均匀环形阵列,该尺寸约为人类头部的平均宽度[43],并从真实建筑工地采集了音频记录。我们的实验装置和建筑工地如图6所示。我们总共录制了40分钟音频,期间有76辆车辆经过。该场地中主要的噪声包括破碎机作业、钻孔和吸尘声。
为了展示PTM和CSafe的噪声滤波架构在车辆检测方面的改进,我们将其与另外3种算法进行比较:线性约束最小方差(LCMV)波束成形器[27]、分层交替最小二乘非负矩阵分解(HALS NMF)[44]以及最先进的源分离神经网络MMDenseLSTM[36]。这些算法分别代表了基于内容的分离算法(HALS NMF)、空间分离算法(波束成形)和基于神经网络的算法(MMDenseLSTM)。除自适应波束形成算法外,其余算法均需要训练阶段。
我们使用从训练数据集生成的人工混合的施工和车辆声音,对MMDenseLSTM网络进行了12,000个周期的训练,批量大小为1。无法使用真实混合信号来训练用于源分离的神经网络,因为神经网络在训练过程中需要精确的真实信号来调整权重。在这种情况下,真实信号应为两种声音同时发生期间孤立的车辆声音。然而,如果两种声音同时发生,则无法获得这两种声音各自的孤立信号。
我们使用训练数据集训练了HALS NMF算法,以学习一个包含50个基的“词”字典,用于分离车辆和施工噪声。
为了更深入地了解CSafe,我们评估了三种操作模式。首先,我们仅使用空间分离模块来评估CSafe;我们将此模式记为CSafe‐空间。接着,我们加入基于内容的分离模块,以观察增加该模块对车辆检测性能的提升效果。如第4.1.3节所述,该模块有两种操作模式。第一种模式中,用户不记录环境中的噪声用于分离,而是使用现有的噪声检测器;我们将此模式记为CSafe‐通用。为了训练该施工噪声检测与分离模型,我们使用训练数据集中的施工噪声,并构建一个20组分高斯混合模型。第二种操作模式是工人录制其正在操作的高噪声工具的一段片段,用于检测和分离;我们将此模式记为默认CSafe模式。为了训练该模式下的噪声检测器和源分离模型,我们从建筑工地数据集的片段中提取仅包含工具声音的小型10秒片段,构建一个5组分高斯混合模型。由于存在三种不同工具(电锤、真空泵、电钻)的工作阶段,我们分别为这三种声音训练三个模型,并应用相应的模型(例如,如果正在使用电锤,则使用从环境中学习到的电锤模型)。
最后,为了训练和评估车辆检测器,我们使用了建筑工地数据集,并采用80%/20%训练/测试分割。在76个录制片段中,有56个包含车辆的片段用于训练,20个片段用于测试。所有片段均被划分为250毫秒窗口,并以50%重叠进行处理。
| 滤波方案 | 真正例 | 真负例 | 假正例 | 假负例 | 检测到的车辆 |
|---|---|---|---|---|---|
| CSafe | 95% | 94% | 6% | 5% | 20/20 |
| CSafe‐通用 | 89% | 96% | 4% | 11% | 20/20 |
| CSafe‐空间 | 85% | 94% | 6% | 15% | 17/20 |
| MMDenseLSTM [36] | 84% | 92% | 8% | 16% | 17/20 |
| NMF HALS [44] | 83% | 94% | 6% | 17% | 16/20 |
| LCMV自适应波束形成[27] | 84% | 95% | 5% | 16% | 17/20 |
| 未过滤 | 80% | 92% | 8% | 20% | 16/20 |
表1:施工场地环境中不同滤波方案下车辆检测器的混淆矩阵指标。
表1显示了在不同源分离和噪声滤波方案下车辆检测器的混淆矩阵指标。混淆矩阵指标衡量的是落入每个类别的250毫秒窗口所占的比例。例如,94%的真阴性率意味着在实际没有车辆出现的窗口中,检测器能够在94%的窗口中正确地判断为无车辆。该表还记录了检测器成功检测到的车辆数量(共使用20辆通过的车辆进行测试)。
首先,我们看到所有方法的真阴性率和假阳性率相对接近(分别为> 90%和< 10%)。这意味着检测器能够很好地正确识别出没有车辆出现的时间段(真阴性),并且在没有车辆存在时不会误报车辆(假阳性)。当我们观察真阳性率时,差异变得明显。真阳性率是指环境中存在车辆的情况下,车辆检测器能够检测到车辆的窗口百分比。我们看到,在不进行任何滤波的情况下,检测器仅能在80%的实际有车辆存在的窗口中检测到车辆。我们发现,LCMV波束成形器、HALS NMF算法以及MMDenseLSTM神经网络能够将检测率提升至约84%。CSafe‐空间也达到了类似的性能。这是因为CSafe‐空间仅使用了空间分离模块,该模块采用与波束成形类似的概念进行分离。
然而,当我们加入CSafe的内容-based分离模块后,真阳性检测率出现了显著提升。使用施工工具声音的预训练模型(CSafe‐通用)将真检测率提高到了89%。此外,如果工人决定录制自己正在使用的工具声音以用于施工工具滤波(CSafe),则真阳性率进一步提升至95%。这相比仅使用无滤波的车辆检测器提升了15%。由于更多实际存在车辆的窗口被正确识别,CSafe也提高了检测到的车辆数量,如表中所示。
| 滤波方案 | 电钻 (1.6 dB) | 真空泵 (−5.5 dB) | 电锤 (−8.6 dB) |
|---|---|---|---|
| CSafe | 99% | 96% | 93% |
| CSafe‐通用 | 95% | 93% | 87% |
| CSafe‐空间 | 91% | 87% | 83% |
| MMDenseLSTM [36] | 72% | 90% | 84% |
| NMF HALS [44] | 83% | 92% | 83% |
| LCMV自适应波束形成 [27] | 87% | 84% | 81% |
| 未过滤 | 83% | 82% | 76% |
表2:按环境的信噪比和工具类型划分的车辆检测真阳性(召回率)。
表2进一步按车辆与施工工具声音的信噪比(SNR)分解了真阳性检测率。环境中存在三种主要的施工噪声:破碎机作业(−8.6dB)、吸尘(−5.5dB)和钻孔(1.6dB)。在任意给定时刻仅存在一种施工工具噪声。尽管较大的建筑工地可能同时使用更多工具,而CSafe可穿戴平台中的麦克风通常只能检测到一个较强的工具声音,即工人当前正在操作或距离最近的工具。因此,仅滤除这一个单一工具的声音仍可覆盖建筑工人安全中的许多场景。我们通过计算无施工噪声时过往车辆的平均功率与无车辆时施工工具的平均功率之比,来估算这些环境中的信噪比。
在表2中,CSafe及CSafe‐通用在所有信噪比条件下均达到了最高的真阳性检测率,即使施工工具(电锤:−8.6dB)的功率高出近一个数量级时也是如此。一个有趣的现象是,当信噪比从−5.5dB提升到1.6dB时,HALS NMF和MMDenseLSTM网络的性能均有所下降。这是因为在1.6dB时,车辆声音超过了施工声音。如果盲目应用基于内容的滤波技术,当施工噪声较低或完全不存在时,将导致信号退化和失真。CSafe噪声滤波架构不会出现此问题,因为它包含一个施工噪声检测器,可自适应地调节需滤除的施工工具声音量。
我们的噪声滤波架构提供的另一个细微改进是降低了检测延迟。我们在图7中对此进行了说明。该图中呈现的信号是一个车辆声音循环播放,并与现实世界中电动工具的声音混合在一起。图7a显示了原始录制信号,而图7b显示了应用我们新颖的滤波架构后的信号。
首先,我们注意到在图7b中,由于大部分施工声音已被滤除,对应于车辆经过的峰值变得明显得多。接下来,我们将每个片段输入到随机森林车辆检测器中。绿色高亮的部分表示车辆声音可听的时段,红色高亮的部分显示了我们的车辆检测器检测到车辆存在的时段。我们可以看到,在应用噪声过滤架构后,我们能够检测到车辆存在的更大时间段。此外,我们发现,在未应用噪声过滤架构的情况下,检测器仅在车辆经过时最响亮的时刻才检测到车辆。在此时检测到车辆并向用户发出警报已经太晚,因为我们需要为用户提供足够的反应时间。在应用噪声滤波算法后,我们发现车辆在接近用户但尚未到达最响点时就被更早地检测到,从而为用户提供了更多的反应时间。在这个例子中,未应用任何滤波时,检测器在车辆进入可听范围后90ms才能检测到车辆;而应用我们的噪声过滤架构后,检测器仅需15ms即可检测到车辆。这对于我们工人的安全平台至关重要,因为每减少一毫秒的延迟,用户就能多出相应的时间来应对即将到来的危险。
为进一步量化延迟方面的改进,我们对noisy dataset中的每个样本重复了图7所述的步骤,并在图8中绘制了每种测试方法检测延迟的均值和方差。在没有任何滤波的情况下,我们的车辆检测器能够检测到车辆平均延迟为42.5毫秒,即车辆进入可听范围后的时间。每种分离方法都能减少这种延迟,而CSafe‐通用模式能将平均延迟降低至22.5毫秒。CSafe的非通用模式能进一步将延迟降至16.4毫秒,低于其他任何方法,使用户在收到警报后拥有更多的反应时间。我们注意到,这些延迟数据是在实验不同源分离算法以用于最终的CSafe可穿戴系统时,通过各算法的计算机实现生成的。完整的CSafe可穿戴平台的延迟分析见第7.2节。
6 CSafe平台
在本节中,我们介绍CSafe可穿戴设备和智能手机平台。我们还讨论了整个系统的数据流,包括噪声滤波、车辆检测和车辆定位。
6.1 系统架构
图9展示了CSafe的完整系统架构,涵盖嵌入式硬件平台和智能手机系统。硬件平台包含麦克风阵列并对其进行采样。然后计算每个采样窗口的快速傅里叶变换(FFT),并将这些特征通过蓝牙低功耗(BLE)这一低功耗无线传输协议发送到智能手机平台。来自麦克风阵列的特征随后被传送到我们新颖的自适应噪声过滤架构(第4.3节),该架构从信号中过滤并去除城市和建筑噪音声音。该模块的输出为当前存在的过滤后的非施工声音源,以及它们相对于用户的位置。这些声源随后被传递给我们的车辆检测器,以确定其中是否存在车辆。我们使用一个50棵树的随机森林检测器,就像该[1]音频安全平台用于行人安全所采用的车辆检测器一样。最后,如果检测到任何声源为车辆,则向用户发送包含附近车辆方向的警报。
6.2 嵌入式硬件平台
CSafe嵌入式硬件平台如图1所示。我们将相同的嵌入式电路(包括Cortex‐M4微控制器和BLE模块)集成到CSafe中,并配备了一个由四个低功耗MEMS麦克风组成的阵列,该电路此前已在行人安全[1]研究中提出。这些组件被集成在安全帽上,主要电子元件的总成本低于20美元。需要注意的是,尽管嵌入式电路相同,但由于建筑工人安全领域存在的独特挑战,从架构到算法等几乎所有其他方面都是全新的。
嵌入式硬件平台从四个麦克风通道进行采样,并对每个通道的250毫秒窗口以50%重叠计算快速傅里叶变换(FFT)。这些特征随后通过BLE传输到智能手机。这为CSafe提供了足够的精细度,以在满足BLE带宽限制的同时低延迟地可靠地检测车辆。
在这项工作中,我们将硬件平台嵌入建筑工人常戴的头盔中,但需注意,我们的平台也可以轻松集成到许多其他类型的可穿戴设备中,例如帽子和耳机,适用于各类用户。
6.3 智能手机平台
智能手机平台接收到麦克风阵列的频率频谱后,将执行我们在第4.3节中介绍的新型自适应噪声滤波架构。该噪声滤波架构的输出为分离出的声源及其对应的位置。噪声滤波架构的输出随后传递给车辆检测器。如果检测到任何分离出的声源为车辆,则通过智能手机系统向用户发送视觉警报,指示车辆相对于用户的方向和距离。
由于建筑工人通常忙于工作,可能无法及时查看手机,因此我们还会向用户的耳机/带音频功能的耳部保护装置发送音频警报,并通过智能手机系统提供触觉反馈。
我们决定利用智能手机平台来执行CSafe上的大部分算法,如图9中嵌入式硬件平台与智能手机系统之间计算任务的不均等分配所示。这是因为我们的基于Cortex‐M4的硬件平台可用的计算资源较少,而现代智能手机上的处理器性能则要强大得多。此外,我们允许用户录制周围环境中城市和建筑噪音的音频片段,以生成针对当前环境定制的模型,从而使我们的架构能够更有效地过滤施工工具声音。
7 系统评估
7.1 功耗
CSafe的嵌入式硬件平台在3.3V电源下的电流消耗为69毫安。这使得CSafe在两节标准的1000毫安时AAA电池(串联连接)供电下,可在充电前持续运行14.5小时。这一续航时间足以满足频繁的日常使用需求。
7.2 延迟
我们测量了数据管道中每个组件的执行时间,如图10所示。CSafe首先从其麦克风阵列采集250毫秒窗口的音频,重叠率为50%。这意味着CSafe每125毫秒计算并传输一次特征。特征计算和无线传输到手机的执行时间分别为100毫秒和3毫秒。CSafe智能手机系统执行其整个管道,包括噪声过滤管道、车辆定位+检测以及发送用户警报,耗时不到8毫秒。因此,从CSafe开始采样窗口到能够向用户发送车辆存在和位置警报的完整端到端延迟为236毫秒。这与人类平均反应时间相当,使用户有足够时间对驶来的车辆做出反应。
8 CSafe平台真实世界评估
在本节中,我们通过一系列真实世界的实验对CSafe进行评估。我们评估了CSafe的两个方面:车辆检测精度和定位精度。我们在图6所示的相同环境中对CSafe进行了评估。为了获得车辆存在与否及位置的真实值,我们使用额外的录像机记录所有场景,并将录制的视频和音频与输出日志进行同步。
| 滤波方案 | 真正例 | 真负例 | 假正例 | 假负例 | 检测到的车辆 |
|---|---|---|---|---|---|
| CSafe | 82% | 96% | 4% | 18% | 29/30 |
| CSafe‐通用 | 78% | 99% | 1% | 22% | 30/30 |
| PAWS [1] | 66% | 99% | 1% | 34% | 21/30 |
表3:混淆矩阵指标比较CSafe的两种模式与最先进的行人安全系统[1]
在所有实验中,我们将CSafe与最先进的用于行人安全的PAWS [1]音频安全平台进行比较。在以下实验中,我们分析了PAWS系统经过的30辆车辆,同时也分别分析了CSafe和CSafe‐通用各自的30辆车辆。
8.1 车辆检测
CSafe和CSafe‐通用均检测到了高比例的车辆(分别为30辆中的29辆和30辆中的30辆)。PAWS系统仅能检测到30辆中的21辆。表3比较了CSafe与PAWS在车辆检测方面的混淆矩阵指标。混淆矩阵指标列出的是被分类为真阳性、真阴性、假阳性和假阴性的音频帧百分比,而非车辆数量。
我们发现,对于CSafe而言,真阳性和真阴性率都非常高(CSafe‐通用:78%和99%;CSafe:82%和96%),而PAWS由于施工工具的噪音掩盖了驶来车辆的声音,其真阳性率较低(66%)。CSafe的车辆检测真阳性率比PAWS提高了16%。
系统的可用性受到假阳性率的显著影响,假阳性率是指在没有车辆出现的窗口中,检测器错误地检测到车辆的百分比。如果假阳性率过高,用户可能会感到烦躁,从而在后续使用中不太可能重视系统的警报。我们发现PAWS和CSafe的假阳性率都相对较低。
最后,假阴性率应非常低,以避免漏检过多车辆,否则可能危及生命。我们发现,由于增加了施工工具产生的压倒性噪声,并且缺乏应对这种意外噪声的机制,PAWS的误报率非常高,达到34%。而CSafe由于采用了噪声过滤机制来滤除环境中的嘈杂施工噪音,其两种操作模式均实现了约20%或更低的误报率。
总体而言,高真阳性率和低假阴性检测率显著提升了CSafe相较于PAWS的性能,使其成为适用于建筑工人安全及其他超出行人安全场景的音频安全平台。
| 滤波方案 | 平均误差(度) | 标准差误差(度) |
|---|---|---|
| CSafe | 6.90° | 5.70° |
| CSafe‐通用 | 11.30° | 10.07° |
| PAWS [1] | 38.7° | 18.60° |
表4:CSafe与最先进的行人安全系统PAWS[1]的定位误差比较
8.2 车辆定位
表4比较了CSafe、CSafe‐通用和PAWS在度数上的平均到达方向定位误差。我们看到,尽管PAWS使用的定位算法具有更高的精细度,其平均错误率仍远高于CSafe的两种模式。这是因为PAWS采用基于互相关的方法来估计其麦克风阵列中各麦克风之间的相对延迟。如第4.2.1节所述,这些方法仅能捕获环境中的单一声源。大多数情况下,被捕获的声源是环境中最响的声音,因为能量最高的声音对互相关函数的值影响最大。由于施工工具通常是环境中最响的声音而非接近的车辆,PAWS倾向于定位施工工具的声音而不是车辆,从而导致较高的定位误差。另一方面,CSafe新颖的自适应噪声滤波架构能够滤除大部分施工声音,并在环境中定位多个目标。这减少了压倒性的施工噪音对驶来车辆检测与定位的影响,从而提高了定位精度。
9 结论
我们提出CSafe,一种用于建筑工人安全的低功耗、可穿戴音频安全平台。CSafe采用集成在嵌入式硬件平台上的低功耗麦克风阵列,并配合智能手机系统,以检测和定位驶来的车辆并向用户提供警报。建筑工人安全与一般城市或行人安全的关键区别在于存在施工噪声,这些噪声通常比驶来车辆的声音响亮数个数量级,从而大大降低了通用基于音频的城市安全平台的有效性。为应对这一挑战,我们引入了一种称为概率模板匹配(PTM)的新型噪声滤波方法,该方法集成于一种新颖的自适应噪声滤波架构中,利用单通道和多通道源分离技术,并结合反馈回路,更有效地滤除环境中常见的强施工噪声和城市噪声。我们证明,通过应用这种新颖的滤波架构,可将车辆检测器的检测率提高10%以上。在没有滤波和其他最先进的源分离算法的情况下。最后,我们通过一系列真实世界实验表明,CSafe在嘈杂的施工环境中相较于其他最先进的音频安全系统,车辆检测率提高了高达16%,定位误差减少了近30°。
1832

被折叠的 条评论
为什么被折叠?



