智慧城市中的声音分析
1. 声学传感器节点与网络设计
声学传感器节点的传感模块在低噪音、消声条件下,使用精密级声级计(Larson Davis 831)进行校准,经实证可产生符合纽约市机构执行噪音法规所需精度的连续分贝数据。
网络设计与基础设施方面,原型节点依赖持续供电和无线网络连接,其部署位置主要由此决定。为保障安全和实现更广泛的局部空间声学覆盖,传感器安装在街道上方约 4 米处,传感器间距约为两个城市街区(约 150 米)。理想情况下,声学传感器应安装在电线杆上,而非建筑物侧面,以减少因靠近墙壁导致的声压级响应变化。
在选择和部署传感器节点时,与基础设施所有者/管理者合作至关重要。若涉及起重设备和专业人员,在城市路灯杆等位置部署传感器的成本可能会大幅增加。同时,优先选择声源变化可能性高的地点,以便收集更广泛的真实音频数据。
为保护公众隐私,音频数据以 10 秒片段的形式进行无损 FLAC 压缩和加密,并穿插随机时长。这些数据通过 Wi-Fi 从传感器直接传输到项目控制服务器,再由控制服务器传输到存储服务器,以备进一步分析。每个传感器每分钟还会通过“状态 ping”传输其当前状态,实现对所有部署传感器的近实时远程遥测显示,以便进行故障诊断。通过虚拟专用网络(VPN)可对部署的传感器进行更深入的控制和维护,VPN 还能增强传感器无线传输的安全性,因为所有数据和控制流量都通过该安全网络传输。未来,项目的声学网络将采用多跳网状网络方法进行传感器 - 服务器通信,以扩大网络范围并降低功耗,为电池供电、能量收集的声学传感器节点创造可能。
以下是传感器数据传输的流程图:
graph LR
A[声学传感器] -->|Wi-Fi| B[项目控制服务器]
B --> C[存储服务器]
A -->|状态 ping| D[远程遥测显示]
A -.->|VPN| E[远程控制与维护]
2. 理解城市声景
以往对城市声景的研究主要集中在识别城市环境中常见的声学场景,如公园、商业街、住宅区街道、建筑工地、餐厅或不同的交通方式等。然而,很难将针对城市环境的研究与一般的声学场景分类(ASC)区分开来,因为 ASC 研究中最广泛使用的数据集大多或完全来自城市声景。
以下是一些常用的声学场景分类数据集:
| 数据集 | 录音总数 | 总场景数 | 城市场景数 |
| — | — | — | — |
| UAE 噪音数据库系列 1 | 10 | 10 | 9 |
| UAE 噪音数据库系列 2 | 35 | 12 | 11 |
| DCASE 2013 | 100 | 10 | 10 |
| DARES G1 | 123 | 28 | 25 |
| TUT 声学场景 2016 | 1170 | 15 | 13 |
| LITIS rouen | 3026 | 19 | 19 |
从表中可以看出,所有数据集都包含相当比例的城市场景。若想了解当前城市声学场景分类的最新技术水平,可参考 DCASE 2016 声学场景分类挑战。该挑战基于 TUT 声学场景 2016 数据集,收到了近 50 份涵盖多种技术的提交方案,从使用 MFCC 特征和 GMM 分类器的基线系统,到在各种输入表示上训练的深度学习架构,包括全连接和卷积神经网络。挑战中报告的最大分类准确率为 0.897,与第二和第三好的系统相差 1%,最佳方法基于深度和浅层特征学习器的后期融合。
不过,目前用于 ASC 评估的数据集几乎都是封闭集,即数据被划分为固定、已知数量的场景。在现实场景中,可能会遇到以前未听过的声学场景,而现有模型未针对此任务进行训练,在这种更具挑战性的场景下,模型性能可能会降低。
3. 城市声音数据集
在 2013 年之前,没有专门针对城市声音的数据集。此前的研究主要集中在精心制作的电影或电视音频、特定环境(如电梯或办公室)的音频,以及商业或专有数据集。手动标注真实世界数据的工作量很大,导致基于实地录音的数据集相对较小,且研究社区在处理城市声音时缺乏统一的词汇,使得声音分类的语义组在不同研究中存在差异,难以比较结果。
为解决这些问题,Salamon 等人提出了基于 Brown 等人提出的声学环境分类法中城市声学环境子集的城市声音分类法。该分类法定义了四个顶级组:人类、自然、机械和音乐,并规定其叶子节点应足够具体明确,例如汽车的“刹车”“发动机”或“喇叭”,而非简单的“汽车”。它围绕纽约市 2010 - 2013 年通过 311 服务提交的 370,000 起噪音投诉中最常出现的声音类别和来源构建。
基于此分类法,开发了一个数据集,重点关注十个低级类别:空调、汽车喇叭、儿童玩耍、狗叫、钻孔、发动机怠速、枪声、风镐、警笛和街头音乐。除“儿童玩耍”和“枪声”是为增加多样性而添加外,其他类别均因在纽约市城市噪音投诉中频繁出现而被选中。
音频数据从在线声音存储库 Freesound 收集,作者下载了每个类别在 Freesound 搜索引擎中的所有搜索结果,手动检查并保留包含目标声音类别的实际城市实地录音,使用 Audacity 标注每个录音中声音出现的开始和结束时间,并添加显著性描述,表明该声音在录音中是被主观感知为前景还是背景。最终得到了 1302 个完整和可变长度的录音,以及相应的声音出现和显著性注释,即 UrbanSound 数据集,该数据集可免费在线获取。此外,作者还为声音源分类研究整理了一个短音频片段子集 UrbanSound8K 数据集,这些片段最长为 4 秒,较长的片段使用滑动窗口(步长为 2 秒)分割成 4 秒的片段,每个类别最多 1000 个片段,共 8732 个标注片段。
以下是 UrbanSound 数据集开发的步骤列表:
1. 基于城市声音分类法确定关注的类别。
2. 从 Freesound 下载每个类别的音频数据。
3. 手动检查并筛选包含目标声音类别的实际城市实地录音。
4. 使用 Audacity 标注声音出现的时间和显著性。
5. 整理得到 UrbanSound 数据集。
6. 对 UrbanSound 数据集进行处理,得到 UrbanSound8K 数据集。
4. 城市声音分类方法
目前已经提出了多种信号处理技术和机器学习模型用于城市声音分类,并在 UrbanSound8K 数据集上进行了评估。以下是这些方法的总结:
| 方法 | 输入特征 | 模型 |
| — | — | — |
| 基线方法 | MFCC 统计摘要 | SVM |
| SKM - mel | 字典编码的对数梅尔频谱图 | 随机森林 |
| SKM - scattering | 字典编码的深度散射谱 | SVM |
| Piczak - CNN | 对数梅尔频谱图 + 增量 | 深度 CNN |
| SB - CNN | 对数梅尔频谱图 | 深度 CNN + 数据增强 |
这些方法的第一步都是特征提取,将原始音频信号转换为更适合机器学习的特征空间。音频特征空间可分为两类:设计(或工程)特征和学习特征。前者的计算独立于输入数据,是一系列旨在捕捉音频信号特定特征的操作的组合;后者则是直接从数据中学习得到的特征空间,包括字典学习和深度学习方法。
传统的音频分类系统,包括环境声音源分类方法,通常依赖工程特征。例如,基线系统结合了流行的梅尔频率倒谱系数(MFCC)和标准分类模型(随机森林)。但最近的大多数方法属于特征学习类别。
以 SKM - mel 方法为例,它基于无监督字典学习。该方法使用球形 k - 均值算法(SKM)从音频信号中学习代表性码字字典,然后用该字典将数据集中的样本编码为特征向量,用于训练和测试判别模型。与传统的 k - 均值聚类算法不同,SKM 中的码字被约束为具有单位 L2 范数,代表数据中有意义方向的分布,对背景噪声等主导信号总能量的事件不太敏感。
聚类产生一个具有 k 列的字典矩阵,每个列代表一个码字。数据集中的每个样本通过将其输入表示(梅尔频谱图)的每个帧与字典矩阵进行矩阵乘法来进行编码。编码矩阵的每一列可视为一个时间序列,其值表示输入表示与字典中第 i 个码字的匹配分数。为确保数据集中所有样本由相同维度的特征向量表示,对时间序列在时间轴上进行汇总,计算每个时间序列的均值和标准差作为特征。最终的特征向量大小为 2k,并在传递给分类器进行训练和测试之前进行标准化。
在学习特征时,可以选择从输入表示的单个帧中学习,也可以将帧分组为 2D 补丁并应用学习算法。研究表明,后一种方法有助于学习捕捉短期时间动态的特征,这对城市声音分类很重要。最佳结果是使用约 370 毫秒(16 帧)的补丁获得的,训练时使用步长为 1 帧的滑动窗口从梅尔频谱图中提取补丁,这为无监督字典学习阶段提供了更多的训练数据,并确保学习到的码字考虑了每个声源的不同时间偏移,有望提高模型对数据中此类偏移的鲁棒性。
此外,通过零相位分量分析(ZCA)白化或主成分分析(PCA)白化等方法对输入维度进行去相关处理,可以显著改善学习到的特征。
从 UrbanSound8K 数据集的分类准确率结果来看,SKM - mel 模型的平均准确率为 0.74,优于 MFCC 基线方法的 0.68。这种差异对梅尔频谱图的参数具有鲁棒性,但取决于 SKM 字典的大小,当 k = 2000 时效果最佳。
综上所述,城市声音分析在智慧城市建设中具有重要意义,通过不断改进数据集和分类方法,有望更准确地理解和管理城市声景。未来的研究可以进一步探索如何提高模型在开放集场景下的性能,以及如何利用多跳网状网络等新技术优化声学传感器网络。
智慧城市中的声音分析
5. 不同特征学习方法的对比与分析
在城市声音分类的研究中,不同的特征学习方法各有优劣。除了前面提到的 SKM - mel 方法,其他几种方法也展现出了独特的特点。
SKM - scattering 方法同样基于无监督字典学习,不过它使用的是深度散射谱进行编码。深度散射谱能够捕捉音频信号的时频特征,并且具有一定的平移不变性。与 SKM - mel 方法类似,它也通过球形 k - 均值算法学习字典,然后将样本编码为特征向量。这种方法在处理一些复杂的音频信号时可能具有更好的表现,因为深度散射谱能够更全面地描述音频的特征。
Piczak - CNN 方法采用了深度卷积神经网络(CNN),输入特征为对数梅尔频谱图加上增量。CNN 具有强大的特征提取能力,能够自动学习音频信号中的特征表示。增量的加入可以进一步捕捉音频信号的动态变化,提高分类的准确性。这种方法在图像分类等领域已经取得了很好的效果,在城市声音分类中也展现出了较高的潜力。
SB - CNN 方法也是基于深度 CNN,但其使用了数据增强技术。数据增强可以通过对原始音频数据进行旋转、平移、缩放等操作,生成更多的训练数据,从而提高模型的泛化能力。在 UrbanSound8K 数据集上的实验表明,数据增强能够显著提高模型的分类准确率。
以下是几种方法的性能对比表格:
| 方法 | 输入特征 | 模型 | 平均准确率 |
| — | — | — | — |
| 基线方法 | MFCC 统计摘要 | SVM | 0.68 |
| SKM - mel | 字典编码的对数梅尔频谱图 | 随机森林 | 0.74 |
| SKM - scattering | 字典编码的深度散射谱 | SVM | 待评估 |
| Piczak - CNN | 对数梅尔频谱图 + 增量 | 深度 CNN | 待评估 |
| SB - CNN | 对数梅尔频谱图 | 深度 CNN + 数据增强 | 待评估 |
从表格中可以看出,SKM - mel 方法在目前已知的结果中表现优于基线方法。而其他几种方法虽然目前没有明确的平均准确率数据,但从其方法的特点来看,也具有很大的潜力。
6. 城市声音分析的应用前景
城市声音分析在智慧城市建设中有着广泛的应用前景。以下是一些具体的应用场景:
-
噪音管理
:通过部署声学传感器网络,实时监测城市中的噪音水平。当噪音超过一定阈值时,可以及时发出警报,相关部门可以采取措施进行治理,如对违规施工、交通噪音等进行管控。
-
城市规划
:了解不同区域的声景特征,有助于城市规划者进行合理的城市布局。例如,在住宅区附近避免建设高噪音的工厂或交通枢纽,规划更多的公园和安静区域,提高居民的生活质量。
-
公共安全
:声学传感器可以检测到枪声、警笛声等特殊声音,及时发现潜在的安全事件。例如,在发生枪击事件时,系统可以快速定位枪声的位置,为警方提供准确的信息,提高应急响应速度。
-
环境监测
:城市声音可以反映环境的变化,如鸟类的叫声可以反映生态环境的好坏。通过对城市声音的长期监测,可以了解生态环境的动态变化,为环境保护提供数据支持。
以下是城市声音分析应用的流程图:
graph LR
A[声学传感器网络] --> B[数据收集与传输]
B --> C[数据分析与处理]
C --> D{应用场景}
D -->|噪音管理| E[噪音警报与治理]
D -->|城市规划| F[合理布局规划]
D -->|公共安全| G[安全事件检测]
D -->|环境监测| H[生态环境评估]
7. 面临的挑战与未来发展方向
尽管城市声音分析取得了一定的进展,但仍然面临着一些挑战:
-
开放集场景处理
:目前大多数模型都是基于封闭集数据集进行训练的,在现实场景中,可能会遇到未见过的声学场景。如何让模型能够准确识别这些“未知”场景,是未来需要解决的一个重要问题。
-
数据质量与标注
:手动标注音频数据是一项耗时且昂贵的工作,目前可用的高质量标注数据集相对较少。提高数据标注的效率和准确性,以及开发自动标注技术,是提高模型性能的关键。
-
传感器网络优化
:声学传感器网络的部署和维护成本较高,如何优化传感器的布局和网络架构,降低功耗,提高数据传输的可靠性,是需要进一步研究的问题。
未来的发展方向可能包括:
-
融合多模态数据
:结合图像、视频等多模态数据,更全面地理解城市环境。例如,通过图像识别可以确定声音的来源,提高声音分类的准确性。
-
开发更智能的模型
:利用深度学习的最新进展,开发更强大、更智能的模型,提高模型在复杂场景下的性能。
-
推动标准制定
:制定统一的城市声音分类标准和评估指标,促进研究社区的交流和合作,推动城市声音分析技术的发展。
总之,城市声音分析是一个具有广阔前景的研究领域,通过不断克服挑战,探索新的发展方向,有望为智慧城市建设提供更有力的支持。
超级会员免费看
1111

被折叠的 条评论
为什么被折叠?



