智慧城市中的声音分析:从原理到应用
1. 智慧城市与城市声景
1.1 智慧城市发展现状
当前,约 50% 的世界人口居住在城市环境中,预计到 2050 年,这一比例将增至 80%。在经合组织成员国,如欧洲和北美的大部分地区,已有 80% 的人口居住在城市,而中国在过去 50 年中城市居民比例净增了 40%。这种快速的城市化趋势既带来了经济发展、就业多元化和创新的巨大机遇,也引发了一系列问题,如人类活动对环境的影响、系统和基础设施的压力、公共空间治安和安全的挑战,以及城市居民健康和生活质量的潜在下降。
为应对城市社区面临的一些紧迫问题,利用技术系统和解决方案的趋势日益明显。智慧城市倡议借助无处不在的智能传感、广泛的连接性和数据科学的最新进展,收集、分发和分析数据,以了解实际情况、预测未来行为并推动有效行动。
1.2 城市声景的特点
城市声景指的是城市中常见的声音场景和声音事件。尽管不同城市甚至不同街区的城市声景具体特征有所不同,但它们仍具有一些与其他声景不同的共同特征。与主要包含自然非生物声音(如风声、雨声)和自然生物声音(如非人类动物声音)的乡村声景不同,城市声景主要由人类产生的声音主导,不仅包括人类的语音,还包括交通、建筑、信号、机器、乐器等人类制造物品发出的所有声音。
1.3 城市声音监测的优势与挑战
声音是了解城市生活的重要信息来源,在智慧城市应用中具有巨大潜力。随着智能手机普及率的提高和专业声学传感器网络的发展,城市声音监测正成为视频摄像头和其他环境传感方式越来越有吸引力的替代或补充。麦克风通常比摄像头更小、更便宜,并且对雾、污染、雨和日常光照条件变化等影响能见度的环境条件具有更强的适应性。它们也不易被遮挡,能够进行全方位传感。
自动捕捉、分析和表征城市声景可以促进一系列新的应用,包括减轻噪声污染、上下文感知计算和监控。对城市声景的自动分析也是研究其对城市生活其他可量化方面(如公共卫生、房地产、犯罪和教育)的影响和相互作用的第一步。
然而,城市声音监测也面临着重要挑战。城市环境是我们可以研究的声学最丰富的环境之一,可能的声音数量无限且密集混合。城市声音的产生机制和由此产生的声学特性高度异质,从枪声等脉冲式声音到持续运行的嗡嗡电机声,从空调机组等类似噪声的源到语音等谐波声音。它们包括人类、动物、自然、机械和电气源,涵盖了整个频率范围和时间动态。
此外,众多声源与通常密集、复杂且高反射性的建筑环境之间的复杂相互作用,会在背景中产生不同程度的“隆隆声”。因此,感兴趣的声源与其他声音重叠并呈现出随时间间歇性变化的低信噪比并不罕见,这极大地增加了对这些声学场景进行分析和理解的难度。
重要的是,在城市声景中,“感兴趣的声源”和“背景”或“噪声”之间的区别远不如在某些音频分析任务(如音乐中特定乐器与伴奏、语音中个体说话者与背景)中那么清晰。几乎任何声源都可能是感兴趣的声源,许多“类似噪声”的源(如怠速发动机或暖通空调机组)即使类型和功能非常不同,也可能具有相似的声学特性。最后,城市声景不像语音和大多数音乐那样遵循自上而下的规则或分层结构,但由于我们的昼夜、每周、每月和每年节律以及文化周期,自然的活动模式仍然存在。
2. 智慧城市中的声音分析应用
2.1 声音分析的广泛应用
智能和自动化的城市声景分析具有许多有价值的应用。例如,它可以用于增强上下文感知计算,特别是在不断变化的城市环境中为机器人导航,包括自动驾驶车辆(私人、公共交通、货运)、无人机、机器人助手、轮椅甚至导游。在这些应用中,声音分析可用于识别和关注自主设备视野之外的声源,如即将到来的交通、紧急车辆、呼喊声;或根据上下文变量(如机器人轮椅运行的地形、智能助听器需要调整的声景水平和组成)来塑造系统的响应。
这些技术还可以为处理城市数据的基于内容的检索应用做出贡献,如个人音频存档、亮点提取、视频摘要以及通过闭路电视或手机数据进行搜索。在这些场景中,声音分析可以帮助表征音频和多媒体内容中的相似性、新颖性、异常和重复性模式,从而便于搜索和导航。
2.2 音频监控
城市地区对自动或半自动监控的需求在过去三十年中经历了逐步而快速的增长,这是由于犯罪和恐怖主义带来的威胁增加。最初,监控系统完全由人类操作,他们必须不断监控来自大量摄像头的视频流,以覆盖广泛而复杂的感兴趣区域。然而,为了确保安全,对这些区域的全面覆盖通常需要数量不合理的操作员。此外,虽然机器很难超越人类监控,但这仅在人类注意力处于巅峰状态时才成立,而在长时间内无法保证这一点。
因此,人们投入了大量精力开发高端技术,以便在潜在危险演变成全面威胁或灾难之前向人类发出警报。例如,用于检测打架斗殴和入侵的技术。技术的改进使得夜间操作的红外摄像头变得经济实惠且噪声更小;视频分辨率现在即使从远处也能保证面部识别所需的数十像素的眼间距,动态范围也有所增加,能够承受最恶劣的室外/室内条件。同时,用于危险检测的信号处理变得更加复杂,能够适应先进的照明模型、复杂的视频分析机器学习算法和先进的多模态传感器融合技术,使全自动监控系统变得有效且可靠,值得广泛应用。
许多潜在的危险事件只能通过分析音频流在早期阶段被检测到。相关示例包括检测枪声、尖叫声和警笛声等特定声源,汽车突然刹车的声音,夜总会外的斗殴场景或抢劫事件。音频监控在高度杂乱的场景中特别有益,因为在这些场景中视觉事件很可能被遮挡。因此,过去十年中市场上出现了基于音频的监控系统,新的研究也专注于仅通过音频流分析或联合音频 - 视频分析来识别危险事件。至关重要的是,通过密集传感器网络进行声音事件检测能够实现重要的监控功能,如声源的定位和跟踪。
2.3 噪声监测
噪声污染是全球城市居民最关注的生活质量问题之一。仅在美国,就估计有超过 7000 万城市居民暴露在有害的噪声水平下。这种暴露水平已被证明会对健康产生影响,如睡眠中断、压力、高血压和听力损失。还有证据表明,噪声会影响儿童的学习和认知能力,导致因噪声相关睡眠干扰而造成的生产力损失,以及对房地产市场产生影响。
大多数主要城市都有条例试图根据一天中的时间/一周中的时间和位置来规范噪声产生。这些法规以总声压级(SPL)及其衍生指标来定义和测量噪声。然而,这种标准与噪声调查、投诉以及关于噪声污染影响的文献中普遍强调的声源形成鲜明对比。噪声专家认识到在城市环境中需要特定声源的指标,特别是在不断被大量声源重塑的城市环境中。与音频监控一样,应用声音分类技术的好处显而易见,这也促使研究界做出了近期的努力。
使用 SPL 指标进行噪声监测存在缺点,而且大规模监测也存在困难。城市官员的现场检查往往很少且间隔时间长,不足以捕捉噪声在时间和空间上的动态变化。或者,城市依靠公民投诉系统进行噪声监测,如纽约市的 311 系统,这实际上是世界上最大的噪声报告系统。然而,研究表明,此类系统收集的噪声信息可能会受到位置、社会经济地位和声源类型的影响,无法准确描述城市中的噪声暴露情况。因此,近年来,使用移动或固定声学传感器的密集网络作为噪声监测的替代和补充解决方案的工作大量涌现。在这种情况下,声音分析可以有助于识别特定的噪声源及其特征(如水平、持续时间、间歇性、带宽)。这反过来又可以为社会科学和公共政策提供关于城市声音与公民投诉、报告的烦恼程度、压力、活动以及健康、经济和教育成果之间关系的新见解。
3. 声学传感器网络
3.1 移动声音传感
近年来,消费移动设备(即智能手机)在处理能力、存储容量、嵌入式传感器和网络数据速率方面取得了快速进展。这些进展加上它们在全球的普及,为大规模远程城市传感开辟了一种新的模式:参与式传感。这种方法的理念是利用消费者智能手机的传感、处理和通信能力,使公众能够收集并上传周围环境的数据。
这种方法的优点包括利用现有基础设施(传感平台和蜂窝网络),部署成本实际上为零,提供无与伦比的空间覆盖范围,并且可以在现场收集对这些环境的主观反应。然而,其缺点主要在于数据的时间分辨率较低,因为提交的是短期测量数据,而且收集的数据质量可能受到智能手机型号、物理和使用条件不一致的影响,导致汇总的环境数据准确性参差不齐。
许多倡议都试图利用移动设备进行声音和噪声监测。例如,EveryAware 项目是一个欧盟项目,旨在通过创建一个结合传感技术、网络应用和数据处理工具的新技术平台,整合环境监测、提高意识和改变行为。其一个子项目 WideNoise 应用程序允许使用参与者的智能手机编制噪声污染地图,包括客观和主观反应数据。此外,他们还在研究用户参与的动机以及访问个性化声音信息导致的行为变化。OnoM@p 项目也遵循了一些相同的目标和策略,值得注意的是,他们试图通过多个设备提交数据之间的交叉校准技术来解决错误数据的问题,这对移动噪声传感来说是一个积极的进展,但前提是需要大规模的公众采用才能成功。
3.2 静态声音传感
静态声音传感解决方案有多种形式,具有不同的能力和价格点。与移动传感解决方案相比,它们的主要优势是能够持续监测并提高数据质量。高精度(±0.7 dB)、专用的商业网络,如 Bruel & Kjaer Noise Sentinel 3639 - A/B/C,可以产生具有法律执行力的声学数据,但每个节点的成本可能超过 15,000 美元。高昂的成本导致部署的空间密度较低,持续时间通常为几个月。
低成本的商业解决方案包括售价 560 美元的 Libelium Waspmote Plug & Sense Smart Cities 设备,它可以测量分贝(dB)值,精度为±3.0 dB。每个传感器节点成本的降低为更大规模的网络部署带来了新的可能性,但数据准确性的权衡可能意味着其在大规模城市部署中的适用性有限。其他示例采用了低成本、低精度传感器与高成本、高精度传感器的混合部署,试图在准确性和可扩展性之间取得平衡。使用每个传感器价格低至 150 美元的网络可以提供更高的网络可扩展性,但会牺牲传感器的能力。这些网络通常使用低功率计算核心,限制了它们进行任何先进的现场音频处理的能力。
3.3 设计低成本声学传感设备
为了满足低成本、高准确性和高性能的要求,设计了一种基于 Raspberry Pi 单板计算机(SBC)的声学传感设备,该设备配备了定制的 USB 微机电系统(MEMS)麦克风模块。
3.3.1 麦克风模块
近年来,由于微机电系统(MEMS)麦克风的设计灵活、对射频干扰(RFI)和电磁干扰(EMI)具有更强的抗干扰能力、成本低和环境适应性强,人们对其兴趣不断增加。当前的 MEMS 型号通常比传统的驻极体麦克风小 10 倍。这种小型化使得可以在 MEMS 外壳内包含额外的电路,如前置放大器级和模数转换器(ADC),以便在某些型号中输出数字化音频。制造这些设备的生产过程还提供了极高的部件一致性,使其更适合多胶囊和多传感器阵列。
采用的传感模块使用全数字设计,利用数字 MEMS 麦克风(包括内置 ADC)和板载微控制器(MCU),使其能够作为 USB 音频设备直接连接到节点的计算设备。数字 MEMS 麦克风具有 32 - 120 dBA 的宽动态范围,确保能够有效监测所有城市声压水平。板载 MCU 的使用还允许在进行任何进一步分析之前,对传入的音频信号进行高效的硬件级滤波,以补偿 MEMS 麦克风的频率响应。该声学传感模块的独立性质意味着它与计算核心无关,可以插入任何计算设备。
3.3.2 外形、成本和校准
传感器的原型外壳和外形设计考虑了多种因素。选择低成本的未完成/未喷漆的铝制外壳是为了减少外部源的射频干扰(RFI)、降低直接阳光照射带来的太阳能热量吸收,并且便于加工。除了麦克风和 Wi - Fi 天线为了获得最大信号增益而外置外,传感器的所有核心组件都安装在这个坚固的外壳内。
在原型节点中,MEMS 麦克风通过可重新定位的金属鹅颈管外部安装,使传感器节点能够重新配置,以部署在建筑物侧面、灯杆和建筑物窗台等不同位置。传感器还配备了防鸟刺,以确保不会因栖息的鸟类造成损坏。截至 2016 年 12 月,不包括建造和部署成本,传感器的总成本为 83 美元。
以下是对上述内容的总结表格:
| 分类 | 内容 |
| — | — |
| 智慧城市发展 | 城市化趋势带来机遇与挑战,智慧城市倡议借助技术应对问题 |
| 城市声景特点 | 以人类产生的声音为主,监测有优势但面临挑战 |
| 声音分析应用 | 包括上下文感知计算、监控、减轻噪声污染等 |
| 音频监控 | 需求增长,技术进步,可检测危险事件 |
| 噪声监测 | 噪声污染影响大,传统监测有缺点,新解决方案涌现 |
| 声学传感器网络 | 分为移动和静态传感,有各自优缺点 |
| 低成本声学传感设备 | 基于 Raspberry Pi,配备 MEMS 麦克风模块 |
下面是一个 mermaid 格式的流程图,展示城市声音监测的流程:
graph LR
A[城市声音环境] --> B[声音收集(麦克风)]
B --> C[数据传输(移动或固定网络)]
C --> D[数据分析(声学算法)]
D --> E{是否异常}
E -- 是 --> F[发出警报或采取措施]
E -- 否 --> G[继续监测]
4. 城市声源识别问题与研究经验
4.1 城市声源识别的难点
城市声源识别面临着诸多难题。城市环境中的声音具有极高的复杂性,声源数量众多且类型繁杂。从声音的产生机制来看,涵盖了脉冲式、持续式、噪声式、谐波式等多种类型;从声源的来源上,包括人类、动物、自然、机械和电气等不同源头,其频率范围和时间动态变化也极为广泛。
而且,城市的建筑环境通常密集、复杂且具有高反射性,众多声源与这样的环境相互作用,会在背景中产生不同程度的“隆隆声”。这就导致感兴趣的声源容易与其他声音重叠,形成低信噪比的情况,并且信噪比还会随时间间歇性变化,极大地增加了对声学场景进行准确分析和理解的难度。
另外,在城市声景中,“感兴趣的声源”和“背景”或“噪声”之间的界限并不清晰。几乎任何声源都可能成为分析的重点,许多“类似噪声”的源,即便类型和功能差异很大,声学特性却可能相似,这进一步加大了声源识别的困难。
4.2 研究经验总结
在城市声源识别的研究过程中,研究人员积累了一些宝贵的经验。一方面,认识到不能仅仅依赖单一的特征或方法来进行声源识别。由于城市声音的复杂性,需要综合考虑多种声学特征,如频率特征、时域特征、音色特征等,并结合机器学习、深度学习等多种算法来提高识别的准确性。
另一方面,数据的质量和数量对识别效果有着重要影响。高质量的数据可以提供更准确的声学信息,而足够数量的数据则有助于模型的训练和泛化能力的提升。因此,在研究中需要注重数据的采集、标注和预处理工作。
此外,多传感器融合也是一个有效的研究方向。将音频传感器与其他类型的传感器(如视频传感器、气象传感器等)相结合,可以获取更全面的环境信息,从而提高对城市声源的识别和理解能力。
以下是城市声源识别难点的列表总结:
1. 声音复杂性:声源类型多,产生机制和声学特性异质。
2. 环境干扰:建筑环境与声源相互作用,导致低信噪比。
3. 界限模糊:“感兴趣声源”和“背景噪声”区分不清晰。
下面是一个 mermaid 格式的流程图,展示城市声源识别的研究思路:
graph LR
A[数据采集] --> B[数据预处理]
B --> C[特征提取]
C --> D[模型训练(机器学习/深度学习)]
D --> E[模型评估]
E -- 效果好 --> F[实际应用]
E -- 效果差 --> B[数据预处理(调整)]
5. 总结与展望
5.1 总结
智慧城市中的声音分析在当前的城市发展中具有重要意义。城市的快速发展使得声音分析成为解决城市诸多问题的有效手段。从城市声景的特点来看,其以人类产生的声音为主,为声音分析提供了独特的研究对象。
声音分析在智慧城市中有广泛的应用,包括音频监控和噪声监测等领域。音频监控能够在早期检测潜在危险事件,提高城市的安全性;噪声监测则有助于了解噪声污染情况,为城市的环境管理和政策制定提供依据。
声学传感器网络是实现声音分析的重要基础,分为移动和静态传感两种方式,各有优缺点。通过设计低成本、高性能的声学传感设备,如基于 Raspberry Pi 和 MEMS 麦克风模块的设备,可以更好地满足城市声音监测的需求。
在城市声源识别方面,虽然面临着诸多难点,但通过不断的研究和实践,已经积累了一些有效的经验和方法。
5.2 展望
未来,智慧城市中的声音分析有望取得更大的发展。在技术层面,随着传感器技术、信号处理技术和机器学习算法的不断进步,声音分析的准确性和效率将进一步提高。例如,更先进的传感器可以采集到更精确的声音数据,更强大的算法可以更好地处理和分析这些数据。
在应用层面,声音分析的应用范围将不断扩大。除了现有的音频监控和噪声监测,还可能应用于城市规划、智能交通、文化遗产保护等更多领域。例如,通过分析城市中的声音分布和变化情况,可以为城市规划提供更科学的依据;在智能交通中,声音分析可以用于检测交通事故和交通拥堵等情况。
此外,跨学科的合作也将成为未来发展的趋势。声音分析涉及声学、计算机科学、环境科学、社会学等多个学科领域,通过不同学科之间的合作,可以更好地解决城市声音相关的复杂问题,推动智慧城市的建设和发展。
以下是未来发展方向的列表总结:
1. 技术进步:传感器、信号处理和算法的改进。
2. 应用拓展:扩大到更多城市领域。
3. 跨学科合作:融合多学科知识解决复杂问题。
下面是一个表格,对比当前声音分析的情况和未来的发展趋势:
| 对比项 | 当前情况 | 未来趋势 |
| — | — | — |
| 技术水平 | 有一定基础,但仍需提高 | 准确性和效率大幅提升 |
| 应用范围 | 主要集中在监控和监测 | 拓展到更多城市领域 |
| 学科合作 | 相对较少 | 跨学科合作更加紧密 |
综上所述,智慧城市中的声音分析具有广阔的发展前景,将为城市的可持续发展和居民的生活质量提升做出重要贡献。
超级会员免费看
1114

被折叠的 条评论
为什么被折叠?



