基于 Whisper 特征的婴儿哭声分类的鲁棒性研究
1. 研究背景与贡献
在婴儿哭声分类领域,本研究具有开创性意义。它首次运用从 Whisper 编码器 - 解码器模型(WEM)生成的特征进行婴儿哭声分类,并对延迟期进行分析,与 MFCC 特征作对比。具体贡献如下:
- 提出端到端预训练的 Whisper 变压器编码器,采用迁移学习方法进行正常与病理性婴儿哭声分类。
- 比较不同层数和可训练参数数量的 Whisper 模型的性能。
- 评估系统在噪声导致信号退化情况下的性能,以适应实际应用中不佳的麦克风条件。
- 分析延迟期并与先进特征集对比,确保在较短语音时长下实现准确诊断。
2. Whisper 模型介绍
2.1 模型概述
Whisper 是开源的预训练序列到序列变压器模型,最初用于多语言和多任务自动语音识别(ASR),于 2022 年 9 月在 GitHub 上公开。其名称源于“Web - scale Supervised Pretraining for Speech Recognition”(WSPSR)。该模型强调在大规模多样监督数据集上训练,并注重零样本迁移,可显著提高系统的鲁棒性和性能。
2.2 训练数据集
Whisper 模型在庞大的数据集上训练,该数据集包含从互联网抓取的弱监督音频及对应的转录文本,涵盖 680,000 小时音频数据,包括 117,000 小时其他语言音频和 125,000 小时从其他语言到英语的翻译音频。这种多样化的数据集使模型能处理各种环境、录音设置、说话者和语言的声音,生成高质量音频信号向量表示,增强泛化能力。
超级会员免费看
订阅专栏 解锁全文
104

被折叠的 条评论
为什么被折叠?



