Kimi: 这篇论文《Unraveling Instance Associations: A Closer Look for Audio-Visual Segmentation》由 Yuanhong Chen 等人撰写,发表于 CVPR 2024。论文主要关注音频-视觉分割(AVS)这一挑战性任务,该任务的目标是基于视听线索准确分割出发声对象。以下是对论文核心内容的整理:
主要贡献
- 数据集构建策略:提出了一种新的成本效益高的策略,用于构建具有挑战性且相对无偏的高质量音频-视觉分割基准数据集,称为 Visual Post-production (VPO)。
- 监督对比学习方法:提出了一种新的信息样本挖掘方法,用于音频-视觉监督对比学习,利用区分性对比样本加强跨模态理解。
- 实验结果:展示了所提基准的有效性,并通过在现有 AVS 数据集和新基准上的实验,证明了所提方法达到了最先进的分割精度。
研究背景
- 人类神经系统展示出多模态感知能力,结合不同模态的输入信号以提高对多种刺激的检测和分类。
- 音频-视觉学习的有效性在很大程度上取决于声音和视觉对象之间的准确跨模态对齐。
现有问题
- 当前方法部分解决了需求,但训练集包含有偏的视听数据,模型泛化能力差。
- 数据集在建立和评估声音和视觉对象之间的对齐方面表现不佳,导致系统行为不理想,评估效果不佳。
VPO 数据集
- VPO 数据集通过将 COCO 图像和 VGGSo