47、声音场景与事件识别的未来展望

声音场景与事件识别的未来展望

1. 引言

在众多领域,深度学习展现出了惊人的能力,可与人类识别图像、文字等的能力相媲美。然而,要达到最佳性能,需要强大的计算能力和海量的训练数据。在声音场景和事件识别领域,由于发展历史较短,目前缺乏成熟的“大数据”训练集,这也促使了相关研究的开展。本文将探讨获取训练数据的方法,以及声音场景和事件识别领域的一些新兴趋势和应用。

2. 获取训练数据

2.1 声音编目

对声音记录进行自动内容分析的第一步是创建一个声音类别目录,用于检测其中的声音。该目录包含两个部分:一是每个声音类别的示例或模型集合;二是我们为这些类别分配的标签,用于指代它们。

从原则上讲,标签可以是任意的,例如唯一标识声音类别的随机字符串。但在实际应用中,音频内容识别的输出通常用于后续的自动或手动分析,因此标签最好是具有语义意义的单词或短语,以便人类分析师能够理解。这意味着构建声音目录的一个重要部分是“知道”如何用语言术语来标记声音。

2.1.1 手动创建声音事件词汇表

获取监督训练所需的标注数据最自然的方法是直接从人类标注者那里获取声音片段的标签。监督分类通常需要预定义的可能标签词汇表,但收集无约束的标签(如www.freesound.org上的自由文本标签)可能会导致词汇表过大,且存在许多同义词。因此,最好建立一个预定义的固定词汇表,并限制标注者仅使用该词汇表中的术语。

不过,与完全自由的标注相比,这会带来一些问题,例如如何定义词汇表,以及如何确保标注者熟悉所有类别。随着词汇表规模和范围的增加,这些问题会变得更加严重。

以下是一些手动创建声音事件词汇表的例子:
- Urban Sounds 分类法 :Salamon 等人选择了 10 个常见且典型的声音事件类别(从“汽车喇叭声”到“孩子们玩耍声”),这些类别旨在具有代表性,不追求覆盖所有事件。标注者对原始数据进行标记,能够快速学习并识别这 10 个事件。
- TUT Sound Events 2016 数据库 :Mesaros 等人要求标注者用自由文本标签标记他们感知到的每个声音事件,指定名词(对象)和动词(动作)。随后,这些标签被手动合并,得到 18 个声音事件类别,可用于分类实验。数据仅限于“居民区”(7 个事件类别)和“家庭”(11 个事件类别)两种声学环境,通过较少的类别实现了合理的覆盖。
- AudioSet 本体 :其目标是定义一个涵盖所有环境声音的声音事件词汇表,手动构建自包括 WordNet 和应用于网络文本的“Hearst 模式”等种子。最终形成了约 600 个事件的层次结构,分为 7 个顶级类别。标注主要通过“验证”方式实现,即向标注者展示一个或一小部分候选标签,让他们标记是否存在,但不询问其他声音是否也存在。此外,还对一种交互式标注工具进行了实验,允许标注者搜索包含指定关键词的事件定义。

2.1.2 自动创建声音事件词汇表

更大的挑战是自动生成一个全面的声音类别词汇表,涵盖音频记录中可能遇到的所有声音类别的标签。生成这样的列表可作为识别或收集相关声音样本的前奏,例如用于强监督或弱监督的分类器学习,或更广泛地作为对这些声音存在的认知指标。

自动创建声音事件词汇表的方法有多种,但也存在一些混淆因素。声音描述词可能指产生声音的对象(如“飞机”或“风铃”)、声音产生的环境(如“操场”)、产生声音的机制(如“锯木头”)或整个声音产生现象的更复杂特征(如“金属在混凝土上刮擦”或“操场上的孩子们”)。组成标签的单词本身可能没有直接的声音含义,例如“汽车怠速”能唤起一种声音类型,但“怠速”本身并不立即与声音相关。

因此,词汇生成机制应采取两步方法:首先生成候选声音标签,然后过滤这些标签以消除虚假候选。以下是一些自动创建声音事件词汇表的例子:
- Säger 等人的方法 :基于声音事件源于对象(名词)进行特定动作(动词)或处于特定状态(形容词)的原则,收集了包括 1200 个名词、40 个动词和 75 个形容词的与声音相关的单词集合,并组成所有可能的形容词 - 名词对(ANPs)和动词 - 名词对(VNPs)。然后,通过保留在 www.freesound.org 上作为声音文件标签组合出现的对,并进一步剔除依赖单个上传者或仅与相同其他对一起出现的不合理结果,最终得到了 1000 多个声音概念。部分示例如下表所示:
| 检测到的“声音”ANPs 和 VNPs 示例 |
| — |
| 嚎叫的狗 |
| 溅水的声音 |
| 大雨声 |
| 嚎叫的狼 |
| 嘎吱作响的脚步声 |
| 回声的电话声 |
| 重金属声 |
| 极端噪音 |
| 汩汩的流水声 |
| 雪破裂声 |

  • Kumar 等人的方法 :采用 CMU 的永不停歇的语言学习者“NELL”的基于模式的方法,从 ClueWeb 语料库中生成声音标签。他们注意到,许多声音描述短语可以通过在前面加上“sound of”而不改变其含义来进行消歧。因此,通过匹配模板“sound(s) of ”(其中 Y 是任意最多四个单词的短语)来识别候选短语,然后应用基于规则的分类器消除噪声候选,得到了超过 100,000 个声音标签。部分语法模式及匹配示例如下表所示:
    | 模式 | 示例概念 |
    | — | — |
    | (DT) VBG NN(S) | 鸣笛的汽车 |
    | (DT) NN(S) VBG | 狗叫声 |
    | (DT) NN NN(S) | 弦乐四重奏 |
    | (DT) JJ NN(S) | 古典音乐 |

注:VBG 是动词的动名词形式的词性标签,NN 是名词,DT 是限定词,JJ 是形容词。

  • Pillai 和 Qazi 的方法 :目前考虑的解决方案仅将连续的单词序列作为声音标签的候选。更一般地,描述声音的短语也可以从较长的名词或动词短语中提取,其中并非所有成分都与声音相关。例如,“一只猫跑过一只喵喵叫的狗”中包含“猫喵喵叫”这一成分。Pillai 和 Qazi 在初步实验中发现,可以通过将句子解析为其组成部分,并评估句子各种成分的组合来形成候选。随后,使用支持向量机对从神经网络派生的短语向量空间表示进行分类,得到的声音标签列表经人工检查判断准确率超过 80%。

这些方法得到的列表可以通过考虑在不同网页上的出现频率、它们之间的共现或亲和性以及出现的上下文来进一步优化。最终,关键的测试是这些短语是否确实能与音频记录相关联,例如可以通过确定这些短语与声音文件共现的频率来进行测试,特别是在预期会出现与声音共现短语的上下文中(如 soundforge.org、YouTube 或关于声音的维基百科页面)。

2.2 机会性数据收集

在图像识别领域,深度学习发展过程中对大量标注示例的需求通过挖掘数十亿在线数字图像来满足,这些图像的标题表明它们包含所需的对象。即使带标题的图像只占每天上传的数十亿张照片中的一小部分,仍然有很大机会找到任何常见主题的标注示例,而且这些示例通常是清晰、构图良好的图片。

声音事件则不同,目前没有广泛上传特定声音简短记录的文化,最接近的是 www.freesound.org,但其总共只有几十万条声音文件。然而,视频虽然数量可能比照片少约一千倍,但仍然有足够的数量,并且部分视频带有相关文本和其他元数据。用户可能更倾向于描述视频中的对象而不是声音,但这些声音通常与特定对象相关联。

因此,通过一系列假设(有些假设较强,有些更可靠),我们可以从视频中提取音轨片段,这些视频的元数据使我们相信它们可能包含我们正在收集示例的特定声音事件。但这些假设可能不成立,从而导致我们标记为包含声音 X 的片段实际上并不包含,这就是“噪声标注”问题。即使声音事件确实发生,也可能存在关于其发生时间的很大不确定性,例如一个标题为“AWESOME GLASS SMASH”的 2 分钟视频可能只包含不到一秒的玻璃破碎声,这种事件时间的不确定性被称为“弱标注”问题。

Hershey 等人使用 YouTube 元数据为视频分配标签,这些标签既弱(每个标签被假定适用于整个视频,而实际上可能只与音轨中的特定时间范围相关)又有噪声(标签推断可能分配了完全不相关的标签)。他们的 3000 个标签(如“歌曲”、“摩托车”等)是针对 YouTube 搜索行为的,不一定与声音事件相关,但他们的结果显示,平均平均精度高达 0.2,而随机猜测的精度不到 0.01,这表明弱标注和噪声标注问题总体上没有预期的那么严重。

2.3 主动学习

由于人类标注者是标记声音示例的最终权威,因此有很强的动机通过确保向他们展示最重要的示例来最大化人类标注成本的价值。这就是主动学习的理念,它将人类标注者纳入机器学习“循环”中,使每个新标签都能为自动系统提供最大价值。

具体来说,主动学习不是为大量示例收集标签以确认基于现有标签训练的分类器的自信预测,而是只对当前系统最有可能误分类的示例(即决策区域边界上的示例)进行标注。随着新标签改进分类器,决策边界会发生变化,被选择进行标注的示例也会相应改变。

主动学习的另一个方面是在系统能够根据一些初始指导自动细化判断时,通过要求不太精确的判断来减轻标注者的负担。这种理念在图像对象分割中得到了有效应用,标注者只需在对象内点击一个点,系统就能推断出该对象最可能的边界框。

2.4 使用无监督数据

获取标注的声音事件数据困难且昂贵,但未标注的音频却很丰富,这使得任何能够利用这些数据的方法都具有优势。

2.4.1 无监督数据的聚类应用

Jansen 等人使用在线聚类系统处理了一百万个 YouTube 音轨(约 5 年的音频),生成了数百万个聚类。虽然在创建聚类时没有使用标签,但结果表明这些聚类与标注项的标签相关,这意味着未标注数据可以帮助“正则化”基于少量标注数据训练的分类器。

2.4.2 无监督数据作为标注候选来源

由于许多声音类别很罕见,简单地对随机选择的声音片段进行标注效率很低。相反,给定一些正例,具有高声学相似度(通过某种度量)的片段可以优先进行标注。更接近人类相似度判断的声学相似度度量(如训练好的分类器的嵌入层)将提供更有用的优先级排序。

2.4.3 使用弱标签进行训练

虽然未标注数据可用于组织音频,但最终仍需要标注数据来训练声音事件分类器。理想情况下,这些数据应包括目标声音事件的孤立或清晰分割的记录。但如前所述,这种“强标注”数据很难获得,因为生成它们需要大量的努力。

获取弱标签则容易且成本低得多,弱标签仅表明特定声音事件是否存在于记录中,而不指定其他详细信息,如事件的精确位置甚至发生次数。这些标签可以通过手动标注获得,例如 Google AudioSet 语料库为 10 秒的音频片段提供弱标签;也可以从记录附带的元数据或文本、对任何伴随视频的分析等中推断得出。

现在的重点转向如何最好地使用这些弱标注数据来训练声音事件分类器。具体问题包括:如何训练分类器对其他类似大小的片段进行类似的标记(弱标注)?能否使用弱标签推断训练数据中目标声音的位置?能否开发检测器在新的测试数据中找到并定位目标事件的实例?

这些问题类似于机器学习文献中广泛研究的多实例学习(MIL)问题。在 MIL 范式中,数据实例被假定分组为“包”,仅提供包级别的标签,用于指示包中是否包含目标类别的代表。MIL 的任务包括:(a)学习对其他包进行最佳分类(确定其中存在哪些类别);(b)学习对单个实例进行分类,包括训练数据包中的实例。已经提出了许多用于 MIL 的算法,包括基于提升、随机森林、支持向量机和神经网络的方法。MIL 已成功应用于各种任务,如图像识别、文本分类、药物活性预测和生物信息学。

在声音分类框架中,弱标注记录类似于实例包。记录可以进一步分割成短的时间或时频段,例如均匀分割成固定长度的部分(如半秒或一秒长),这些部分构成包中的单个实例。MIL 技术可以直接应用,将单个实例(段)分类为属于或不属于目标声音事件,自然也能将事件定位到段的粒度范围内。

以下是一些将 MIL 应用于音频分析的例子:
- 音乐领域 :Mandel 和 Ellis 最早将 MIL 应用于音乐。音乐标签通常应用于艺术家、专辑或单个曲目,但一个标签可能不适用于整个专辑或曲目,例如标记为“萨克斯风”的曲目可能包含完全没有萨克斯风的片段。他们尝试使用 MIL 从高级标签中获得更细粒度的标签,即对音乐中的单个片段(以 10 秒为粒度)进行标记,并报告能够以合理的精度完成此任务。
- 鸟类声音识别 :Briggs 等人应用了一种称为多实例多标签(MIML)学习的 MIL 变体来识别记录中的鸟类声音。在典型的自然鸟类声音记录中,可以听到许多不同的鸟类。训练数据上的标签通常只识别其中听到的所有鸟类,但不(且通常无法)分离出单个鸟类。作者证明 MIML 解决方案在识别测试记录中的所有鸟类方面比其他方法具有更高的准确性,但他们的解决方案仅限于进行包级分类,没有尝试在测试或训练数据中分离单个鸟类叫声。
- 通用声音事件检测 :Kumar 和 Raj 最早将 MIL 应用于通用声音事件检测问题,并基于不同的分类器形式(包括支持向量机和神经网络)提出了多种解决方案。他们的工作主要解决的任务是学习检测目标声音事件。

综上所述,声音场景和事件识别领域在获取训练数据方面面临诸多挑战,但也有多种方法和技术正在不断发展和探索中,这些努力将有助于推动该领域在未来取得更大的进展。

3. 新兴应用与技术展望

3.1 智能家居与环境交互

随着智能家居设备的普及,声音场景和事件识别技术将在其中发挥重要作用。通过识别环境中的声音,如门铃声、脚步声、电器运行声等,智能家居系统可以实现更加智能化的交互。例如,当检测到门铃声时,系统可以自动打开摄像头查看门口情况,并通过语音提示告知主人;当检测到电器异常声音时,系统可以及时提醒主人进行检查和维修。

以下是智能家居中声音识别应用的流程:
1. 声音采集 :通过分布在各个房间的麦克风收集环境声音。
2. 特征提取 :对采集到的声音进行特征提取,如频率、幅度、时长等。
3. 事件识别 :使用训练好的分类器对提取的特征进行分析,识别出不同的声音事件。
4. 系统响应 :根据识别结果,智能家居系统做出相应的响应,如控制设备开关、发送通知等。

3.2 智能安防

在智能安防领域,声音场景和事件识别技术可以作为视频监控的补充,提供更加全面的安全保障。例如,通过识别枪声、玻璃破碎声、呼喊声等异常声音,安防系统可以及时发出警报,并通知相关人员进行处理。同时,结合视频监控数据,还可以更准确地判断事件的发生位置和情况。

智能安防中声音识别的工作流程如下:

graph LR
    A[声音传感器] --> B[声音数据]
    B --> C[特征提取]
    C --> D[事件分类器]
    D --> E{是否异常声音}
    E -- 是 --> F[发出警报]
    E -- 否 --> G[继续监测]
    F --> H[通知安保人员]
    H --> I[结合视频分析]

3.3 音频内容检索与推荐

音频内容检索与推荐也是声音场景和事件识别技术的一个重要应用方向。通过对音频内容进行分析和标注,可以实现更加精准的检索和推荐。例如,用户可以通过输入声音关键词,如“鸟鸣声”、“海浪声”等,快速找到相关的音频资源;同时,系统可以根据用户的历史收听记录和偏好,推荐符合用户兴趣的音频内容。

音频内容检索与推荐的步骤如下:
1. 音频标注 :使用声音事件词汇表对音频内容进行标注。
2. 索引建立 :建立音频标注信息的索引,方便快速检索。
3. 用户查询 :用户输入查询关键词或提供相关音频样本。
4. 检索匹配 :根据用户查询,在索引中查找匹配的音频内容。
5. 推荐生成 :根据用户的历史行为和偏好,生成个性化的音频推荐列表。

3.4 医疗健康领域

在医疗健康领域,声音场景和事件识别技术也有潜在的应用价值。例如,通过分析患者的呼吸声、咳嗽声等声音特征,可以辅助医生进行疾病诊断和监测。此外,对于一些患有听力障碍或言语障碍的患者,声音识别技术可以帮助他们更好地与外界交流。

医疗健康领域声音识别应用的相关示例及作用如下表所示:
| 应用场景 | 声音特征 | 作用 |
| — | — | — |
| 呼吸疾病诊断 | 呼吸频率、声音强度等 | 辅助判断呼吸功能是否正常 |
| 咳嗽监测 | 咳嗽频率、音色等 | 评估病情严重程度和治疗效果 |
| 言语康复 | 语音清晰度、语调等 | 帮助患者进行言语训练和康复 |

4. 技术挑战与未来研究方向

4.1 数据质量与标注问题

尽管已经有多种方法来获取训练数据,但数据质量和标注仍然是一个挑战。噪声标注和弱标注问题会影响分类器的性能,而手动标注成本高且效率低。未来需要研究更加高效、准确的标注方法,以及能够处理噪声和弱标注数据的算法。

4.2 复杂声音场景的识别

现实世界中的声音场景往往非常复杂,包含多种声音事件的混合和重叠。如何准确识别这些复杂声音场景中的各个声音事件,是未来研究的一个重要方向。这需要开发更加先进的特征提取和分类算法,以及能够处理多模态信息的模型。

4.3 实时处理能力

在一些应用场景中,如智能安防和智能家居,需要系统能够实时处理声音数据并做出响应。因此,提高声音识别系统的实时处理能力是至关重要的。这可能涉及到硬件加速、算法优化等方面的研究。

4.4 跨语言和跨文化的声音理解

不同语言和文化背景下,人们对声音的感知和描述可能存在差异。未来的研究需要考虑如何实现跨语言和跨文化的声音理解,使声音识别技术能够在全球范围内得到更广泛的应用。

5. 总结

声音场景和事件识别技术在多个领域都有广阔的应用前景,但目前仍面临着诸多挑战。通过不断探索和研究获取训练数据的方法,如声音编目、机会性数据收集、主动学习和使用无监督数据等,以及开发更加先进的算法和模型,有望克服这些挑战,推动该技术在未来取得更大的发展。随着技术的不断进步,声音场景和事件识别将为我们的生活带来更多的便利和价值。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值