35、计算生物声学场景分析

计算生物声学场景分析

1. 引言

动物利用声音进行交流和探索,声音能在无需与接收者进行视觉接触的情况下快速传递信息,这在茂密森林、夜间活动以及远距离(空中和水下)场景中具有显著优势。生物声学是一个多学科领域,涵盖了生物环境中声音的研究,包括声音在环境中的机械传播、动物的发声机制以及不同物种对声音感知的现象学和神经学等。

生物声学对生物多样性的重要性日益凸显。许多物种和生态系统受到人类活动、气候变化和自然过程的威胁,因此大量项目开始使用自动和半自动生物声学分析进行监测。同时,生物声学分析对于理解动物交流、物种形成和文化进化等问题,以及管理自然声音档案也至关重要。

动物发出的声音极其多样,例如:
- 许多哺乳动物的发声方式与人类元音相似,形成具有共振峰的谐波“堆栈”,如狗或狼的嚎叫。
- 一些鸟类会产生谐波声音,但也有很多会发出相对纯净的音调或类似噪音的声音,鸣禽还能通过专门的肌肉进行快速调频。
- 两栖动物和昆虫产生的发声单元更简单、更刻板,且常进行群体鸣叫。
- 许多鲸鱼和海豚会发出可变音高的谐波声音、咔哒声和嗡嗡声。

现代计算方法通过各种声学场景分析形式,为解决生物声学问题做出了重要贡献。一方面,生物声学数据量的不断增加使得自动化成为必然;另一方面,现代计算技术为我们从现有数据中获取新见解提供了新工具。

2. 生物声学任务

2.1 种群监测、定位和测距

动物种群监测一直是重要任务,过去多基于人工观察。自动化监测有望实现更大规模和长期的监测,即使在恶劣环境中也能进行。虽然自动监测的准确性通常不如专家手动监测,但它有两个相对优势:一是观察结果可通过传感器数据记录独立验证;二是能更清晰地表明决策的置信水平,其概率信息有助于分析。

统计生态学有成熟的模型,可根据手动观察数据估算动物的时空种群分布。对于生物声学监测,不仅要检测声音的存在,还需估算距离、方位等属性,并理想地根据发声个体对发声进行聚类。

使用声学方法估算发声个体的位置(距离、方位)对种群监测和研究动物行为都很有用。最可靠的声学定位方法是使用多个同步录音,通过麦克风阵列实现三角定位。但在很多情况下,只能获得单通道录音,此时距离估算较为困难,通常需利用声音在传播过程中的变化,如能量衰减和频率变化。

2.2 物种和亚种识别

在大多数生物声学监测项目中,区分不同动物物种和亚种是必要的,以避免种群密度估计的混淆。在发达国家,待检测的陆生动物种类通常明确且有足够数据训练分类器;但在发展中国家、热带生态系统和难以到达的地区,可能会遇到未知的物种类别,因此无监督分析或开放集分类器设计也很合适。

“物种”的界限并不总是明确的,分类学研究可能会识别出新的亚种或物种,这对保护工作有重要影响。计算生物声学在物种识别决策中发挥着越来越重要的作用,不仅涉及分类,还包括界定和研究类别之间的界限,这可能需要聚类和可视化方法。

2.3 “词汇”分析以及动物通信系统中的不变性和变化研究

研究动物通信系统的“词汇”和“语法”是一个广泛的研究领域,有助于种群监测、物种划分等任务,也是表征物种及其行为的基本任务。例如,斑胸草雀的发声曲目曾通过经验和音频示例进行表征,近年来,数据驱动的自动分类和聚类方法对其进行了细化和量化。

对发声中的单个单元(“音节”)进行标注可作为自动分类任务,但由于真实标签通常未知,更适合作为聚类任务。同一(亚)物种内不同种群和个体之间可能存在差异,且特征会随时间因遗传或文化进化而变化,这些因素对自动方法的开发构成挑战,也是研究的重要课题。

发声学习是一个重要研究课题,人类的语言能力在很大程度上依赖于发声学习能力。为研究鸣禽从周围声音中学到了什么,需要开发声学相似度度量方法。此外,许多动物会一起发声,它们的声音相互影响的程度以及与群体行为的关系也是研究的重点。

2.4 数据挖掘、档案管理和公民科学

自然声音数据量在近几十年呈指数级增长,因此档案的浏览和搜索变得至关重要。分类和聚类程序可帮助自动标注声音场景和事件,可视化工具可增强对大量音频数据的手动浏览。

利用众包数据(公民科学方法)在许多项目中越来越有优势,但也带来了数据来源、隐私和质量等问题。在公民科学中,生物声学的任务包括自动标注或验证用户提交的标签、异常值检测、重复检测以及从模糊数据中进行推断。

生物声学还涵盖了更多基于音频的任务,例如根据某些物种的发声特征估算个体的年龄、大小、健康状况或性别,估算健康状况在农业养殖监测中具有工业应用价值。

3. 方法和方法论问题

3.1 检测、分割和分类

在生物声学中,许多分析需要将声音场景分解为组成声音事件并进行标注。检测和分割有时可互换使用,在生物声学中,分割通常是将场景分为前景(歌曲、叫声)和背景。检测/分割可以有不同的概念化方式,如判断声音是否存在、确定起始/结束区域或时频位置。

在生物声学分析中,许多研究人员通过在频谱图上绘制时频框来注释数据,与之对应的常用检测方法是基于频谱图互相关的模板匹配。对于许多应用,时间位置是检测的更重要方面,它有助于长音频记录的导航,并可将记录分割成小区域进行进一步分析。

除模板匹配外,另一种常见的分割方法是选择具有相对高能量的连续区域,可能在特定感兴趣的频带内。Ventura等人比较了各种分割方法,并引入了一种基于形态滤波结果进行时间分割决策的方法。

正弦分析或音高跟踪在日常声音场景中很少使用,但在生物声学中可能有用,其适用性取决于研究的物种。研究人员已开发出各种正弦方法来检测和表征海豚和鸟类的发声。

生物声学中的许多任务基于对分割区域的自动分类,其中物种分类是研究最广泛的任务之一。早期研究中,分类用于在少数潜在物种标签中做出决策,而实际应用中可能存在大量物种。近年来的工作已能在数百个物种分类中取得良好结果。常用的分类器包括支持向量机、随机森林和隐马尔可夫模型等。直到2016年,深度学习在生物声学分类任务中的应用还很少,现在研究人员开始将其应用于生物声学。

对于将分类应用于音频场景中单个分割区域的工作流程,系统的整体性能可能严重依赖于初始分割过程的质量。因此,一些现代方法直接对整个声音记录进行操作,而不尝试去除无关的声音区域。目前还没有详细研究评估基于分割和无分割的现代方法在恶劣条件下的鲁棒性。

模板匹配在许多生物声学项目中被广泛使用,当要识别的声音高度刻板时效果很好,但在声音可变性高时可能失败。最近有一种方法将模板匹配重新用于灵活的大规模分类,将模板匹配的结果作为特征输入到强大的分类器中。

以下是生物声学任务和方法的总结表格:
|任务|方法|
| ---- | ---- |
|种群监测、定位和测距|多麦克风阵列三角定位、单通道录音距离估算(基于声音传播特性)|
|物种和亚种识别|模板匹配、特征学习、深度学习分类器|
|“词汇”分析及通信系统研究|自动分类、聚类、声学相似度度量|
|数据挖掘和档案管理|分类、聚类、可视化|
|检测、分割和分类|模板匹配、能量选择、正弦分析、音高跟踪|

下面是一个简单的mermaid流程图,展示生物声学场景分析的基本流程:

graph LR
    A[声音数据采集] --> B[检测与分割]
    B --> C[特征提取]
    C --> D[分类与识别]
    D --> E[结果分析与应用]

3.2 源分离

源分离是将混合声音信号分解为各个独立声源的过程,在生物声学中具有重要意义。例如,在监测多个动物同时发声的场景时,需要将不同动物的声音分离出来,以便更准确地分析每个个体的发声特征。

常用的源分离方法包括独立成分分析(ICA)、非负矩阵分解(NMF)等。ICA假设混合信号是由多个统计独立的源信号线性组合而成,通过寻找一组变换矩阵,将混合信号转换为相互独立的成分。NMF则是将非负的声音频谱矩阵分解为两个非负矩阵的乘积,其中一个矩阵表示基向量,另一个矩阵表示系数,通过迭代优化的方法来求解这两个矩阵。

然而,生物声学中的源分离面临着诸多挑战。动物声音的多样性和复杂性使得信号模型难以准确建立,而且实际环境中的背景噪声、混响等因素也会影响分离效果。为了提高源分离的性能,研究人员通常会结合先验知识,如动物声音的频率范围、发声模式等,对分离算法进行改进。

3.3 相似度测量

在生物声学中,相似度测量用于比较不同声音样本之间的相似程度,这对于物种识别、发声学习研究等任务至关重要。常用的相似度测量方法包括基于特征的方法和基于模型的方法。

基于特征的方法是提取声音的特征参数,如频谱特征、时域特征等,然后计算这些特征之间的距离。例如,欧氏距离、余弦相似度等。基于模型的方法则是使用概率模型来描述声音的分布,通过比较不同模型之间的差异来衡量相似度。例如,使用高斯混合模型(GMM)来表示声音的概率分布,通过计算两个GMM之间的Kullback - Leibler散度来评估相似度。

但是,由于动物声音的多样性和可变性,单一的相似度测量方法往往不能满足所有需求。因此,研究人员通常会综合使用多种方法,或者开发新的相似度度量指标,以提高相似度测量的准确性。

3.4 发声序列分析

许多动物的发声不是孤立的,而是以序列的形式出现,这些序列可能包含着丰富的信息,如动物的情感状态、社交意图等。因此,对发声序列进行分析是生物声学的重要研究内容。

发声序列分析的方法包括序列比对、隐马尔可夫模型(HMM)等。序列比对是将两个或多个发声序列进行对齐,找出它们之间的相似部分和差异部分,常用的算法有Needleman - Wunsch算法和Smith - Waterman算法。HMM则是一种统计模型,用于描述序列的生成过程,通过训练HMM可以对发声序列进行建模和分类。

在实际应用中,发声序列分析面临着序列长度不一致、噪声干扰等问题。为了解决这些问题,研究人员会对序列进行预处理,如归一化、降噪等,同时也会改进算法以提高分析的准确性。

3.5 整体分析和可视化

整体分析是从宏观角度对生物声学数据进行分析,考虑声音场景的整体特征和结构。例如,分析整个生态系统中声音的多样性、分布规律等。可视化则是将生物声学数据以直观的方式展示出来,帮助研究人员更好地理解数据。

常用的可视化方法包括频谱图、声谱图、时域波形图等。频谱图可以展示声音的频率分布随时间的变化,声谱图则可以更清晰地显示声音的能量分布。此外,还可以使用三维可视化技术,将声音数据在三维空间中展示,以便更全面地观察声音的特征。

以下是生物声学分析中不同方法的优缺点对比表格:
|方法|优点|缺点|
| ---- | ---- | ---- |
|模板匹配|简单直观,对刻板声音识别效果好|对声音可变性高的情况适应性差|
|正弦分析|适用于音调类发声,能提取音高信息|对非音调类发声不适用|
|独立成分分析(ICA)|能有效分离独立源信号|对信号模型要求高,受噪声影响大|
|非负矩阵分解(NMF)|可解释性强,能提取声音的基特征|计算复杂度较高|
|序列比对|能找出序列间的相似和差异|对序列长度不一致处理较复杂|
|隐马尔可夫模型(HMM)|能对序列进行建模和分类|训练过程复杂,对数据要求高|

下面是一个mermaid流程图,展示生物声学中发声序列分析的详细流程:

graph LR
    A[发声序列数据] --> B[预处理(归一化、降噪)]
    B --> C[特征提取]
    C --> D[序列比对或HMM训练]
    D --> E[序列分类或建模]
    E --> F[结果评估与优化]

综上所述,计算生物声学场景分析是一个充满挑战和机遇的领域。随着数据量的不断增加和计算技术的不断发展,我们有望开发出更高效、准确的方法,为生物多样性保护、动物行为研究等提供更有力的支持。未来的研究可以进一步探索深度学习在生物声学中的应用,提高自动监测和识别的准确性;同时,加强多学科的交叉融合,结合生物学、生态学等知识,更好地理解生物声学数据背后的生物学意义。

六自由度机械臂ANN人工神经网络设计:正向逆向运动学求解、正向动力学控制、拉格朗日-欧拉法推导逆向动力学方程(Matlab代码实现)内容概要:本文档围绕六自由度机械臂的ANN人工神经网络设计展开,详细介绍了正向与逆向运动学求解、正向动力学控制以及基于拉格朗日-欧拉法推导逆向动力学方程的理论与Matlab代码实现过程。文档还涵盖了PINN物理信息神经网络在微分方程求解、主动噪声控制、天线分析、电动汽车调度、储能优化等多个工程与科研领域的应用案例,并提供了丰富的Matlab/Simulink仿真资源和技术支持方向,体现了其在多学科交叉仿真与优化中的综合性价值。; 适合人群:具备一定Matlab编程基础,从事机器人控制、自动化、智能制造、电力系统或相关工程领域研究的科研人员、研究生及工程师。; 使用场景及目标:①掌握六自由度机械臂的运动学与动力学建模方法;②学习人工神经网络在复杂非线性系统控制中的应用;③借助Matlab实现动力学方程推导与仿真验证;④拓展至路径规划、优化调度、信号处理等相关课题的研究与复现。; 阅读建议:建议按目录顺序系统学习,重点关注机械臂建模与神经网络控制部分的代码实现,结合提供的网盘资源进行实践操作,并参考文中列举的优化算法与仿真方法拓展自身研究思路。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值