46、基于 Whisper 特征的婴儿哭声分类的鲁棒性研究

最新推荐文章于 2025-11-20 06:06:56 发布

oo7890

最新推荐文章于 2025-11-20 06:06:56 发布

阅读量74

点赞数

CC 4.0 BY-SA版权

分类专栏： SPECOM 2023前沿之声文章标签： Whisper模型 WEM特征婴儿哭声分类

本文链接：https://blog.youkuaiyun.com/oo7890/article/details/151702398

SPECOM 2023前沿之声专栏收录该内容

59 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

基于 Whisper 特征的婴儿哭声分类的鲁棒性研究

1. 研究背景与贡献

在婴儿哭声分类领域，本研究具有开创性意义。它首次运用从 Whisper 编码器 - 解码器模型（WEM）生成的特征进行婴儿哭声分类，并对延迟期进行分析，与 MFCC 特征作对比。具体贡献如下：
- 提出端到端预训练的 Whisper 变压器编码器，采用迁移学习方法进行正常与病理性婴儿哭声分类。
- 比较不同层数和可训练参数数量的 Whisper 模型的性能。
- 评估系统在噪声导致信号退化情况下的性能，以适应实际应用中不佳的麦克风条件。
- 分析延迟期并与先进特征集对比，确保在较短语音时长下实现准确诊断。

2. Whisper 模型介绍

2.1 模型概述

Whisper 是开源的预训练序列到序列变压器模型，最初用于多语言和多任务自动语音识别（ASR），于 2022 年 9 月在 GitHub 上公开。其名称源于“Web - scale Supervised Pretraining for Speech Recognition”（WSPSR）。该模型强调在大规模多样监督数据集上训练，并注重零样本迁移，可显著提高系统的鲁棒性和性能。

2.2 训练数据集

Whisper 模型在庞大的数据集上训练，该数据集包含从互联网抓取的弱监督音频及对应的转录文本，涵盖 680,000 小时音频数据，包括 117,000 小时其他语言音频和 125,000 小时从其他语言到英语的翻译音频。这种多样化的数据集使模型能处理各种环境、录音设置、说话者和语言的声音，生成高质量音频信号向量表示，增强泛化能力。

会员秒杀 ¥9.9 重磅福利

超级会员免费看