基于音频的异常声音检测

IEEE智能交通系统汇刊,第17卷,第1期,2016年1月 279

道路音频监控:一种异常声音检测系统

帕斯夸莱·福贾、尼古拉·佩特科夫、阿莱西娅·萨杰塞、尼古拉·斯特里斯丘利奥和马里奥·文托

摘要 —在过去的几十年中,已经提出了多种基于视频分析的系统,用于自动检测道路交通事故,以确保应急队伍能够快速干预。然而,在某些情况下,视觉信息并不充分或不够可靠,而使用麦克风和音频事件检测器可以显著提高监控系统的整体可靠性。
本文提出了一种通过分析音频流来检测道路交通事故的新方法,以识别轮胎打滑和汽车碰撞等危险情况。该方法基于音频流的双层表示:在低层次上,系统提取一个特征集,以捕捉感兴趣事件的判别特性;在高层次上,则采用词袋方法进行表示,从而检测短暂和持续事件。本文还讨论了在真实环境中部署该系统的部署架构,并在公开可用的数据集上进行了实验分析以供基准测试。
实验结果验证了所提方法的有效性。
索引术语 —危险检测,事故检测,音频事件,音频检测,轮胎打滑,汽车碰撞。

一、引言

近年来,由于在城市中移动的人群和交通工具数量不断增加,公共环境中的安全与安保需求日益上升。道路交通监控包括对事故或道路中断的检测,以便迅速确保应急队伍介入,并保障人员安全[1]。事实上,研究表明[2],[3],从事故发生到应急队伍被派遣之间的时间缩短,可显著降低死亡率(约6%)。在此背景下,摄像头已被广泛用于通过跟踪车辆轨迹来监控其行为[4]–[7]靠近交通信号灯或道路交叉口附近,以检测突然操作,或在高速公路上监控交通流量并检测长队列[8],[9]。

然而,在某些情况下,仅靠视觉信息不足以可靠地理解车辆活动或检测可能的危险情况。例如,轮胎在道路上打滑具有非常独特的声学特征,这种特征无法从视频流中检测到,但却可能是异常情况(如事故或道路危险状态)的证据,需要人工干预以确保安全。此外,异常事件可能发生在摄像头视野之外,使得无论是人工操作员还是自动视频分析系统都无法检测到。在这种情况下,使用麦克风并对音频流进行处理,作为视频分析的补充工具,可以提高安全系统的检测能力[10],[11],并总体上缩短应急队伍的响应时间。事实上,如今用于监控的网络摄像头通常配备有嵌入式麦克风,这有助于音频分析系统的部署。

音频分析系统的一个主要优势是,它们无需应对光照条件的变化,因此可以在白天和夜晚同样有效地使用。然而,在开放环境中进行音频事件检测存在很大挑战:其中一个主要问题是,感兴趣事件往往与较高水平的背景噪声叠加在一起;此外,很难预先建模道路环境中可能出现的所有背景声音。例如,考虑在一条非常繁忙的高速公路上发生事故的情况:音频事件检测器需要能够将由车流产生的背景噪声与发生在距离麦克风较远位置的汽车碰撞(即感兴趣事件)区分开来。在这种情况下,信噪比(SNR)非常低,使得此类事件的识别成为一项极为复杂的任务。

音频分析系统面临的另一个典型问题与感兴趣事件的持续时间有关:例如,轮胎打滑通常是一种持续性声音,可能持续数秒,而汽车碰撞则是一种瞬态声音,其持续时间非常短暂。

在过去的几十年中,已提出了大量处理音频流分析的方法,涵盖语音识别[12],[13]、场景分类[14],[15]到说话人识别[16],[17]。最近,在监控应用中也日益关注音频分析,以检测犯罪行为来保障公共交通安全[18]–[20],出于安全考虑对车辆最高速度的监控[11],[21],[22],或道路交通事故[2],[3],[23]。

本文中,我们聚焦于道路监控问题,提出了一种通过分析麦克风采集的声音来自动检测两种危险情况(即轮胎打滑和汽车碰撞)的系统。最近在[29]中提出了一项关于监控系统的前沿方法的全面综述,其中指出音频事件检测可被视为一种传统的模式识别问题。事实上,通常的思路是使用一个特征集来描述待分析的数据,这些特征的值用于形成感兴趣模式的向量表示。特征是待检测或分类模式的显著特性,而特征集则旨在有效描述来自不同类别的模式:现实世界中相似的模式在特征空间中应具有非常接近的向量。这些特征向量被用来训练分类器,分类器通过学习过程为不同类别的模式创建模型,然后在测试阶段利用这些模型对新观测到的模式进行分类[30]–[37]。近年来,传统分类方案得到了改进,并提出了更复杂的架构,以提高音频检测器的整体可靠性[20],[38],或考虑感兴趣事件的不同时间分辨率[39],[40]。

从本文的初步工作[24]出发,我们提出了一种基于音频流高层表示的检测系统,能够同时考虑感兴趣事件的短时和长时特性。得益于采用bag-of-words方法,我们的系统能够学习哪些短时特性在较长时间尺度上对特定事件具有区分能力,并能将其与背景声音区分开来。这一特性在当前所研究的领域中尤为重要。事实上,在本应用中,汽车碰撞声音的特点是能量在时间上的突然变化,而轮胎打滑声则是一种持续性声音,其能量集中在较窄的频率区间内。

我们在一个数据集¹上验证了该系统,该数据集已公开以供基准测试目的使用。在所提出的数据集中,感兴趣的声音并非孤立存在,而是叠加在道路和交通拥堵的各种典型背景声音之上,以考虑异常事件在真实世界条件下的发生情况。

本文的结构如下:在第二节中,我们描述了所提出的方法及其原理;在第三节中,我们概述了系统设置以及对麦克风布置的分析;接着,在第四节中,我们对性能进行了详细分析。最后,在第五节中得出结论。

¹ 数据集可在网址 http://mivia.unisa.it/ 获取

II. 方法

所提系统的目的是将感兴趣的音频事件与背景声音区分开,并将其分类到 M类之一。所提方法的原理基于以下考虑:声音由微小的原子音频单元组成,类似于文本由若干个单词的数量,以及特定单元在给定时间间隔内的出现情况,是某种事件存在的指示。

为了基于该假设构建音频流的描述,采用了一种利用词袋方法的分类架构。词袋技术已广泛应用于文本分类,其中待分类的数据通过统计低层特征(words)的出现次数来表示,并构建一个(高层)向量,其维度等于字典中可能包含的词汇数量。该高层向量即为词汇的出现频率直方图,用于文本分类。

在提出的音频分析架构中,定义了以下层次:1)低层特征提取,2)基本音频词字典学习,3)高层向量构建,以及4)分类。以下将对每一层进行详细说明。

A. 低层特征提取

与视频流相比,音频信号可能在几毫秒内出现剧烈变化。因此,为了考虑其短时变异性,音频流被分割为持续时间为 $T_f$的小片段(帧),这些片段部分重叠。选择 $T_f$的值时需同时兼顾对低频和高频成分的分析:例如,若帧过短,系统将无法有效分析低频成分;反之,若帧过长,高频成分将在较长的时间间隔内被平均化。对于每一帧,系统会计算一个低层特征向量。

已考虑并实验了三组低层特征,即梅尔频率倒谱系数(MFCC)[27]、巴克子带中的能量比[28]以及基于信号时域和频域特性的特征[25],[26],后者此前已在[24]中使用。关于这三个特征集的更多细节见表I。

B. 字典学习

低层特征空间是连续的且在理论上是无限的,因此不适合检测特定相关声音原子单元(下文称为音频词)的存在。为了获得一组有限的音频词,我们使用 K‐means算法,该算法根据向量之间的相似性对其进行聚类。K‐means算法的输出是一组 K个点,对应于聚类的聚类中心。由于一个聚类中心代表一组相似的低层向量,我们将这组 $D={u_1 ,…, u_K}$聚类中心视为基本音频词的字典。

C. 高层表示

示意图0

在图1中,展示了高层表示构建过程的示意图。给定字典 $D$,对于每个低层向量 $v_i$,确定最接近的音频词 $u_j$。在有限时间区间内每个词$u_j$的出现情况被用来构建高层特征向量。该向量对应于直方图 $H=(h_1,…, h_K)$,其区间计算如下:

$$
h_j = \sum_{i=1}^{N} \delta(b_i, j), \quad j = 1,…, K \tag{1}
$$

其中 $\delta(\cdot)$ 是克罗内克函数,$b_i$ 是集合 $D$中某个词的索引,由以下方式确定:

$$
b_i = \arg\min_j d(v_i, u_j), \quad j = 1,…, K \tag{2}
$$

其中 $d(v_i, u_j)$ 是向量$u_j$与原型 $v_i$之间的相异度度量(采用欧几里得距离)。

D. 分类架构

我们的假设是,某些类别的声音被认为具有独特的音频词,使得系统能够将这些声音与其他类别区分开来。我们使用高层特征向量训练了一个由 $M+1$支持向量机 (SVM)组成的分类器池,每个SVM专门用于检测某一类声音(M感兴趣事件以及背景声音)。SVM分类器特别适用于所采用的声音表示方法,因为它能够学习哪些词对特定类别的事件是相关的,并丢弃那些对有效分类无贡献的词,赋予它们非常低的权重。我们采用了带线性核的 SVM,在实验中取得了满意的结果,同时具备快速处理能力,这对于实时响应至关重要。

SVM最初是一种二分类器。因此,为了应对多分类问题,实现了一个SVM池(图2)。

示意图1

手头的第 $i$个分类器使用类别 $C_i$的样本作为正例,其他所有类别的样本作为负例进行训练。在测试阶段,每个分类器计算一个分数 $s_i$,该分数是分类置信度的度量,数值越高表示决策越可靠。最终类别 $C$被选为在某一阈值 $\lambda$之上给出最高分数的支持向量机(SVM)所对应的类别:

$$
C =
\begin{cases}
C_0, & \text{if } s_i < \lambda \quad \forall i = 0,…, M \
\arg\max_i s_i, & \text{otherwise}
\end{cases}
\tag{3}
$$

如果所有分类器给出的置信度得分 $s_i < \lambda$,则该时间间隔被分类为$C_0$类中的背景声音。在我们的实验中,阈值设置为 $\lambda = 0$。使用SVM分类器处理背景类别提高了所提系统对背景噪声的鲁棒性,并减少了误报。

III. 部署架构

我们假设系统部署时,在道路的一侧安装了一组 $R={r_i|i=1,…, N_m}$个麦克风,彼此之间的距离为 $m$米,安装高度为 $h_r$米(见图3)。

示意图2

距离 $m$的选择在很大程度上取决于两个因素:1)待检测事件的声音强度,2)事件仍能被系统检测到的距麦克风的最大距离 $d$。当然,$d$取决于系统所工作的环境类型:我们预计,在乡村道路(车辆较少且车速较低)上的该值会高于高速公路,因为高速公路上的车辆数量和车速明显更高。

为了更好地理解环境对麦克风覆盖能力的影响,我们认为麦克风采集到的声音的信噪比(SNR)(以分贝表示)按如下方式计算:

$$
\mathrm{SNR} = L_s(d) - L_n \tag{4}
$$

其中 $L_s(d)$表示在距离麦克风 $d$处发生的感兴趣事件以分贝表示的强度水平,而 $L_n$是交通引入的分贝噪声。以下将提供关于这两个因素计算的更多信息。

A. 感兴趣事件的强度水平

由于声音传播受到扩散、吸收、地面构型等因素的影响,麦克风接收到的音频事件强度被衰减了一个因子 $A(d)$:

$$
L_s(d) = L_s(d_0) - A(d) \tag{5}
$$

其中 $L_s(d_0)$ 是参考距离 $d_0$ 处的声音强度。

根据ISO 9613‐2[41]标准,衰减可以计算为四个因素的组合,这些因素强烈依赖于声音传播所处的环境:

$$
A(d) = A_{\text{div}}(d) + A_{\text{atm}}(d) + A_{\text{gr}}(d) + A_{\text{bar}}(d). \tag{6}
$$

这些因素由环境的特定特征决定。具体而言:

  • $A_{\text{div}}$是由于几何发散;我们假设声源呈球面扩散,声音在各个方向上均匀辐射;因此,距离声源每增加一倍,声级就降低6分贝:

$$
A_{\text{div}}(d) = 20 \log \frac{d}{d_0} + 11 \tag{7}
$$

其中11,计算为 $10 \cdot \log(4 \cdot \pi)$,是一个用于模拟球面扩散因子的常数。

  • $A_{\text{atm}}$是由于声波传播过程中的大气吸收引起的,可以按如下方式计算:

$$
A_{\text{atm}}(d) = \alpha \cdot \frac{d}{1000} \tag{8}
$$

其中 $\alpha$是大气衰减系数,它是温度、湿度和标称频率的函数。根据[41],$\alpha = 32.8$ 分贝/公里,假设温度约为 $10^\circ$C,标称频率为4 kHz。

  • 地面衰减 $A_{\text{gr}}$是声源(产生目标声音的车辆)到接收器(麦克风)的直达声与经地面反射的声波相互干涉的结果。设$h_r$和 $h_s$分别为接收器高度和声源高度。为了计算 $A_{\text{gr}}$,标准方法建议将声源与接收器之间的区域划分为三个部分:声源区域(其大小为30 · $h_s$),位于声源周围,决定衰减$A_s$;中间区域,决定衰减$A_m$;接收区域(其大小为 30 · $h_r$),位于接收器周围,决定衰减 $A_r$。因此,$A_{\text{gr}}$的计算公式如下:

$$
A_{\text{gr}}(d) = A_s + A_m(d) + A_r. \tag{9}
$$

特别是在4 kHz标称频带下,$A_r$ 和 $A_s$ 可以按如下方式计算:

$$
A_r = A_s = 1.5 \cdot (1 - G) = 1.5. \tag{10}
$$

根据标准,$G$值等于0,因为我们假设道路是硬质地面。相反,$A_m$ 可以计算为:

$$
A_m(d) = 3 \cdot q(d) \cdot (1 - G) \tag{11}
$$

其中

$$
q(d) =
\begin{cases}
0 & d \leq 30(h_s + h_r) \
1 - \frac{30(h_s + h_r)}{d} & d > 30(h_s + h_r)
\end{cases}
$$

  • 最后,$A_{\text{bar}}$是由于障碍物的存在。考虑到麦克风直接安装在道路上,在我们的场景中这一因素可以忽略不计。

B. 交通噪声的强度水平

在过去的几十年中,科学界提出了多种交通噪声建模方法,因为这对于评估环境管理和城市规划中的声学影响非常重要。如[42]和[43]所示,并没有统一采用的规则,而是每个国家采用自己的标准:例如,英国采用了 CoRTN [44]方法,德国采用了RLS 90[45]模型,意大利采用了C.N.R. 模型 [46],法国则采用了NMPB [47]。

这类方法的共同思路是考虑轻型和重型车辆的交通流量、路面类型以及麦克风与产生噪声的车厢之间的距离。

特别是,本文应用了CoRTN模型,利用[48]提供的在线应用来评估不同场景下产生的交通噪声。CoRTN模型评估所谓的 $L_{10}$(以下简称 $L_n$),即在一小时时间段内仅有 10%时间被超过的噪声水平。

主要思想是将道路划分为一组 $S$段(使得每段内的噪声水平变化小于2分贝),并分别评估第 $i$段的基本噪声水平 $L_i$,同时考虑距离引起的衰减以及特定环境的影响。最后,综合所有路段的贡献,得到总体噪声 $L_n$。

根据CoRTN模型,第 $i$段在给定交通流量 $q$下的噪声 $L_i$计算如下:

$$
L_i = 42.2 + 10 \log_{10} q + C \tag{12}
$$

其中 $C$是针对不同速度 $v$、重型车辆百分比 $p$和道路坡度 $g$所需的修正系数。事实上,$L_i$的基本计算(在 $C=0$条件下)考虑了平均速度 $v=75$千米/小时、重型车辆百分比 $p=0\%$以及道路坡度 $G=0$度。

为了模拟与基本情况不同的场景,需要应用适当的修正 $C=C_1 + C_2$。特别是,$C_1$是对 $v$和 $p$的修正:

$$
C_1 = 33 \log_{10}(v + 40 + 500/v) + 10 \log_{10}(1 + 5p/v) - 68.8 \tag{13}
$$

而$C_2$ 是道路坡度的修正值,其计算方法如下:

$$
C_2 = 0.3 \cdot g. \tag{14}
$$

表II 用于评估距离 $d$的参数值汇总

最后,将 $S$段的各个因素结合起来,以计算总体交通噪声 $L_n$:

$$
L_n = 10 \log_{10} \sum_{i=1}^{S} 10^{L_i/10}. \tag{15}
$$

C. 讨论

通过考虑我们的系统可以工作的不同场景来进行仿真。
具体而言,我们评估了信噪比如何随以下参数变化:距离 $d$、车辆速度 $v$(在{50, 70, 100, 130} 千米/小时范围内)、每小时车辆数 $q$ (在{100, 500, 1000, 4000} 辆/小时范围内)。

在表II中,我们列出了仿真中考虑的参数值,而获得的结果则在图4中给出:具体而言,每张图展示了当 $q$的值固定时,信噪比(y轴)随距离(x轴)的变化情况。同一图中的曲线对应于不同的 $v$值。正如预期的那样,随着速度、交通流量和距离的增加,信噪比显著下降。

尽管所考虑的模型允许我们通过结合不同的交通流量、车速和距离值来模拟所提系统在多种环境中的行为,但我们决定重点关注以下两种场景,它们分别代表了所提系统可能工作的最佳和最差情况:(1)乡村道路,车辆通常速度较低(约50千米/小时),车流非常小(小于100辆/小时);(2)高速公路,在高峰时段车流量可能非常高(约4000 辆/小时),车速也较高(约100千米/小时)。

考虑到我们在第三节中详细解释的,所提系统能够可靠地检测信噪比为≥ 10分贝的感兴趣事件,我们设计了麦克风的布局。

在图4(a)和图4(d)中,我们分别描绘了在固定交通流量 $q=100$和$q=4000$下信噪比随距离的衰减情况。在第一种情况下,我们观察到在120米距离处感兴趣的声音的信噪比约为10分贝,而在第二种情况下,在约25米距离处即可实现10分贝的信噪比。这意味着

示意图3

对于乡村道路,麦克风可以相距约240米放置。而高速公路场景由于经过道路的车辆数量较多,因此无疑更具挑战性,麦克风之间的最佳距离约为 $m=50$米。

四、实验结果

A. 数据集

据我们所知,目前没有公开可用的用于道路监控应用的数据集。因此,我们创建了一个包含两类危险道路事件(即碰撞和轮胎打滑)的数据集。音频片段的采样率为 32 kHz,分辨率为每PCM样本16位;整个数据集已公开提供在http://mivia.unisa.it,用于基准测试目的。

一种用于道路监控的基于音频的系统必须应对各种背景声音,从非常安静的背景(例如乡村道路)到高度嘈杂的交通拥堵(例如大城市中心)以及高速公路。因此,在所提出的数据集中,感兴趣事件被叠加到不同的背景声音上,以模拟其在各种环境中的发生情况。我们最初收集了 59个碰撞样本和45个轮胎打滑样本,以及23个不同道路位置的声音。我们采用了一种组合原始声音的程序,将在下文进行说明。

音频片段 $x(n)$ 最初已被归一化,以使它们都具有相同的总能量:

$$
x(n) = \frac{x(n)}{x_{\text{rms}}(n)} \tag{16}
$$

其中$x_{\text{rms}}(n)$是音频片段的均方根(RMS)值。从典型交通声音中随机选取一个约一分钟时长的背景声音片段 $b(n)$。然后从原始数据集中随机选择若干个前景事件 $N_e$,并将其叠加到背景声音上,以模拟感兴趣事件在真实环境中的发生情况。所选事件与背景声音混合的方式如下:

$$
\text{out} j(n) = \sum {i=1}^{N_e} \left{ b_j(n) \oplus [s_i, e_i] [A \cdot x_i(n)] \right} \tag{17}
$$

其中$\oplus[s_i, e_i]$ 是一个算子,用于在由$[s_i, e_i]$ 划定的区间内,从起点开始将信号 $x_i(n)$ 与信号 $b_j(n)$ 进行组合以及感兴趣声音的结束点。点$e_i$与下一个声音$s_{i+1}$的起始点之间相隔4到7秒,该时间段内仅存在背景声音。衰减(或放大)因子 $A$被确定为以达到信噪比15分贝。

最终数据集由57个约一分钟长的音频片段组成,这些片段是通过上述定义的程序创建的。每个片段包含一系列感兴趣事件:每类总共包含200个事件。生成的音频片段被组织成 $N=4$折,每折包含来自每类感兴趣事件的50个事件,并与各种交通背景声音重叠。每一折中包含的样本(包括背景声音和感兴趣事件)不会出现在其余折中,因此各折之间完全独立。此外,通过将感兴趣事件叠加在异质背景声音上,确保了数据的高变异性。在给定的一折中,同一事件可能与不同的背景混合出现,以更好地表示各种真实情况。在下文中,我们将使用以下缩写来指代不同类别:BN表示背景噪声,CC表示汽车碰撞,TS表示轮胎打滑。数据集组成的详细信息见表III。

表III 数据集组成的详细信息。声音的总时长以秒为单位表示

B. 实验设置

对于低层特征的计算,音频流被划分为 $T_f = 32$ 毫秒的帧,对应1024 PCM 样本。我们发现选择 $T_f = 32$ 毫秒是一个合理的折中方案,既能考虑信号的低频和高频特性,又能对采样率为32 kHz 的音频流进行可靠的短时分析。两个连续帧之间有75% 的长度重叠,以确保音频流分析的连续性。在实验中考虑了簇的数量 $K$ 的不同取值(从64 到1024),以评估系统的敏感性。

高层特征向量在3秒的时间窗口内进行计算,该时间窗口向前移动1秒。因此,两个连续的时间窗口重叠2秒。通过这种方式,即使在秒级的时间分辨率下也能确保分析连续性:发生在一个窗口末尾的事件大致会落在下一个窗口的中间位置。

在实验中,采用 $N$‐折交叉验证。交叉验证是一种用于评估模式识别系统的性能及其对不同数据泛化能力的技术。该方法将数据集划分为若干个相互独立的折,即每个折中的样本不会出现在其他折中。交叉验证常用于估计系统在实际应用中的工作准确性和在不同条件下的稳定性。其中,$N−1$折被用作训练集以训练分类模型,剩余的一折作为测试集。由此获得的 $N$次测试结果随后进行平均。

C. 性能评估

我们通过测量识别率(真正率,TPR),即正确检测到的目标事件的比例,以及假正率(FPR),即仅存在背景声音时错误检测到的目标事件的比例,来评估所提系统的性能。当至少有一个与事件重叠的时间窗口被正确分类时,计为一次正确分类。当仅存在背景声音时检测到感兴趣事件,则计为一次假阳性发生,这对应于实际系统中的误报。在相同

如果在两个连续的背景时间窗口中检测到感兴趣事件,则只计为一次假阳性发生。

此外,我们计算了受试者工作特征(ROC)曲线,这是一种广泛用于评估分类系统整体性能的方法。该曲线描绘了分类器的真正率(TPR)与假正率(FPR)在其判别阈值变化时的权衡关系。ROC曲线越接近平面的左上角,性能越好。我们采用ROC曲线下面积(AUC)作为性能的总体度量指标,对于完美系统,其值等于1。

在图5中,我们报告了所提系统(红色实线)在数据集上的识别率性能。我们研究了训练阶段学习到的基本音频词(簇)数量对识别率的影响。在图5的顶行中,展示了SVM分类器针对三种低层特征集的性能。当分别采用[24]中提出的梅尔频率倒谱系数和巴克尺度作为低层特征时,我们获得的平均识别率分别为82%、80.25%和75%,标准差分别为1.5、1.64和2.4。此外,我们使用Nadeau 和Bengio的方法[49]估算了4折交叉验证的泛化误差方差。我们观察到估计的方差比平均误差小25到50倍,从而证实了在 $N=4$折上实验的统计显著性。

除了SVM分类器外,我们还采用了一种 $k$‐最近邻($k$NN)分类器,以评估所提出的高层表示的泛化能力。我们在图5的底行展示了使用 $k$NN分类器所达到的性能。$k$的值通过实验设定为5。尽管基于SVM的分类器在聚类数量上的性能表现稳定,但

示意图4

使用 $k$NN分类器所实现的性能表明,音频词数量的增加会导致泛化能力下降。因此,如果在训练阶段使用过多的音频词,系统将过于专注于训练集中事件的识别。然而,对于当前的应用而言,聚类数量并非关键参数,因其始终保持在128以下。

在表IV中,我们报告了将系统配置为 $K=64$个簇时所取得的结果摘要,该数值具有最高的泛化能力。而在表V中,我们报告了所提系统获得的分类矩阵。我们可以注意到,[24]中提出的特征以及MFCC特征相较于Bark特征对交通噪声表现出更高的鲁棒性。这导致在使用Bark特征集时,系统会产生更高的假正率,因为在交通噪声较大的情况下,难以将感兴趣的声音的基本单元与背景噪声区分开来。然而,关于音频基本单元的时间整合的进一步研究,有望提高系统对噪声的鲁棒性以及检测能力。

使用 $K=64$个簇,SVM分类器针对类别 BN、CC和 TS在以下特征集上学习得到的平均支持向量数量分别为:Bark特征集(60, 55, 50),MFCC特征集(55, 70, 60),以及[24]中的特征集(50, 60, 55)。

示意图5

D. 敏感性分析

在真实环境中,声源可能位于距离麦克风不同远近的位置,导致采集到的信号强度和信噪比各不相同。我们针对信号强度和聚类数量对所提系统进行了敏感性分析。根据第三节中提出的分析,我们将信号强度分别降低−3分贝和−6分贝,以评估在25米和120米距离下的检测能力,具体取决于场景。实际上,我们使用原始数据集中的事件训练系统,然后在强度为原始信号 −3分贝和 −6分贝的事件上进行测试。

如前一段所述,训练过程中学习到的基本音频词数量会影响系统的泛化能力,而声音的衰减版本上的识别率趋势(分别为 −3分贝和 −6分贝的绿色和蓝色虚线)与原始数据集的趋势一致。

相反,值得注意的是,系统在不同声源距离下的性能主要取决于音频信号的低层表示。事实上,当使用基于信号强度和能量的时域特征来描述音频帧时,随着事件与麦克风距离的增加,性能不可避免地下降(见图5(a)、(b)、(d)和(e)中的蓝色和绿色线条)。在这种情况下,当感兴趣事件的能量降低到与背景噪声相近时,区分这些事件将变得更加困难。梅尔频率倒谱系数(MFCC)特征广泛应用于语音识别或说话人识别等音频识别任务,但其对加性噪声较为敏感。然而,它们对不同的信噪比表现出更高的鲁棒性,从而产生更稳定的结果,如图6所示。从图5(c)和(f)可以明显看出,基于子带中频谱能量分布的低层特征在信号功率逐渐降低的情况下仍表现出较强的鲁棒性。

在表VI中,我们报告了所提系统在原始数据集以及包含信号的衰减版本的数据集上,随着聚类数量的变化所达到的平均识别率及其标准差。

表VI 所进行的敏感性分析结果。针对所采用的两种分类器,在对所提出的数据集中的事件(原始,ORIG.)及其衰减版本(衰减,ATT.)进行分类的情况下,报告了平均识别率及其标准差。

使用 $k$NN分类器获得的结果在配置较多簇时,会因泛化能力下降而受到显著影响。相反,在图6中,我们比较了使用三组低层特征所得到的ROC曲线。对于分别在[24]中使用的MFCC和巴克尺度特征,曲线下面积(AUC)分别为 0.80、0.90和0.86。ROC分析证实,基于信号强度和能量的特征[24]在识别不同距离的声音时表现不足,而基于频率分析的特征(如梅尔频率倒谱系数和巴克尺度)对不同的信噪比具有更高的鲁棒性。

E. 实时性能

该算法在单个英特尔i5处理器核心上仅占用约3%的资源即可处理采样率为32 kHz的音频流。该算法还已在STM32F4开发板上实现并可实时运行,使其部署成本非常低廉。

V. 结论

本文中,我们提出了一种通过分析监控麦克风获取的音频流来检测道路上危险情况的系统。我们在一个自行创建并公开的数据集上进行了实验,旨在研究所提系统对其配置参数的敏感性。此外,我们进行了细致的设计分析,以了解该架构在不同类型环境(从乡村道路到高速公路)下识别感兴趣事件的最大距离方面的潜力。

所取得的结果证实,所提系统可有效应用于嘈杂的道路环境,在乡村道路上最大距离为120米、高速公路上最大距离为25米时,平均准确率达到78.95%。此外,其整体处理负载仍与低成本系统兼容,因此鼓励将其移植到硬件资源有限的嵌入式系统上。该特性使得在已有提供音频采集传感器的监控架构基础上,构建部署成本较低的道路监控系统成为可能。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值