patch-drop——新颖的音频增强方法

Patch-drop 是一种用于增强模型鲁棒性和提升性能的音频数据增强方法,首次在 MAST 模型的自监督学习中引入。其核心思想是 随机丢弃输入补丁(patch),从而迫使模型在不完整的输入中学习更加稳健的特征。以下是其工作原理和意义的详细说明:


1. 工作原理

  1. 输入处理:

    • 音频信号首先被转换为对数缩放的梅尔频谱图(log-mel spectrogram)。
    • 该光谱图被划分为固定大小的 补丁(patch),每个补丁表示音频信号的一小部分时频信息。
  2. 随机丢弃补丁:

    • 在自监督训练中,Patch-drop 随机选择一部分补丁(通常为20%),并将其移除(设置为零或某种占位符)。
    • 这种丢弃操作仅在训练阶段使用,不影响推理阶段。
  3. 学习目标:

    • 剩余的补丁被输入模型,模型需要在丢失部
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值