论文研读：Learning to rebalance multi-modal optimization by adaptively masking subnetworks

原创已于 2025-10-30 21:46:03 修改 · 761 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #深度学习 #神经网络 #人工智能 #机器学习

于 2025-10-28 22:36:10 首次发布

部署运行你感兴趣的模型镜像

英文题目：Learning to rebalance multi-modal optimization by adaptively masking subnetworks

中文题目：通过自适应掩码子网学习多模态优化的再平衡

IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE 2025
作者来自南京理工大学

论文获取

摘要

模态不平衡问题：偏向于占主导地位的模态而忽略其他模态，从而限制了整体效果。
现有方法：通常采用modal-level的控制机制调整每个模态参数的更新。
存在问题：这种全局范围内的更新机制忽略了每个参数的不同重要性。
本文：受子网络优化的启发，探索了一种基于均匀采样的优化策略，其比全局更新更为有效。提出了一种基于重要性采样的元素级联合优化方法，称为Adaptively Mask Subnetworks Considering Modal Significance (AMSS)。具体而言，通过引入互信息率来确定模态的重要性，并采用非均匀自适应采样方法从每个模态中选择前景子网络进行参数更新，从而实现多模态学习的平衡。

引言

写作参考句：Compared with single-modal data, multi-modal data is more informative and covers a wider range of information dimensions and diversity. Hence, it is more important to use multiple modal data to perceive the world. By leveraging multi-modal data, multi-modal learning strives to surpass single-modal learning, capturing widespread attention across diverse domains.

作者发现：element-wise modulation strategy效果优于其他策略
在这里插入图片描述
主要贡献：