Patch-drop 是一种用于增强模型鲁棒性和提升性能的音频数据增强方法,首次在 MAST 模型的自监督学习中引入。其核心思想是 随机丢弃输入补丁(patch),从而迫使模型在不完整的输入中学习更加稳健的特征。以下是其工作原理和意义的详细说明:
1. 工作原理
-
输入处理:
- 音频信号首先被转换为对数缩放的梅尔频谱图(log-mel spectrogram)。
- 该光谱图被划分为固定大小的 补丁(patch),每个补丁表示音频信号的一小部分时频信息。
-
随机丢弃补丁:
- 在自监督训练中,Patch-drop 随机选择一部分补丁(通常为20%),并将其移除(设置为零或某种占位符)。
- 这种丢弃操作仅在训练阶段使用,不影响推理阶段。
-
学习目标:
- 剩余的补丁被输入模型,模型需要在丢失部

最低0.47元/天 解锁文章
455

被折叠的 条评论
为什么被折叠?



