Thirty-Eighth AAAI Conference on Artificial Intelligence, AAAI 2024中multi-modal论文汇总(前20)

原创

已于 2024-10-11 21:16:01 修改 · 1.1k 阅读

24 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #机器学习 #深度学习 #论文笔记

于 2024-10-11 10:39:36 首次发布

系列文章目录

文章目录

系列文章目录
一、《A Multi-Modal Contrastive Diffusion Model for Therapeutic Peptide Generation.》治疗肽生成的多模态对比扩散模型。
二、《Local-Global Multi-Modal Distillation for Weakly-Supervised Temporal Video Grounding.》弱监督时域视频接地的局部-全局多模态精馏。
三、《Learning Multi-Modal Cross-Scale Deformable Transformer Network for Unregistered Hyperspectral Image Super-resolution.》非配准高光谱图像超分辨率的多模态跨尺度变形变压器网络学习。
四、《LAMM: Label Alignment for Multi-Modal Prompt Learning.》
五、《Prompting Multi-Modal Image Segmentation with Semantic Grouping.》基于语义分组的多模态图像分割。
六、《COMMA: Co-articulated Multi-Modal Learning. 》COMMA:联合多模式学习。
七、《Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-Modal Structured Representations.》Structure-CLIP:面向场景图知识，增强多模态结构化表示。
八、《Multi-Modality Affinity Inference for Weakly Supervised 3D Semantic Segmentation.》弱监督三维语义分割的多模态关联推理。
九、《NaMa: Neighbor-Aware Multi-Modal Adaptive Learning for Prostate Tumor Segmentation on Anisotropic MR Images.》基于邻居感知的多模态自适应学习在各向异性MR图像上的前列腺肿瘤分割。
十、《NuScenes-QA: A Multi-Modal Visual Question Answering Benchmark for Autonomous Driving Scenario.》NuScenes-QA:自动驾驶场景的多模态视觉问答基准。
十一、《Generative-Based Fusion Mechanism for Multi-Modal Tracking》基于生成的多模态跟踪融合机制
十二、《Heterogeneous Test-Time Training for Multi-Modal Person Re-identification》多模态人再识别的异构测试时间训练
十三、Chain of Generation: Multi-Modal Gesture Synthesis via Cascaded Conditional Control.生成链:通过级联条件控制的多模态手势合成。
十四、《Referred by Multi-Modality: A Unified Temporal Transformer for Video Object Segmentation》多模态:一种用于视频对象分割的统一时间转换器。
十五、《Multi-Modal Prompting for Open-Vocabulary Video Visual Relationship Detection》开放词汇视频视觉关系检测的多模态提示
十六、《PM-INR: Prior-Rich Multi-Modal Implicit Large-Scale Scene Neural Representation.》PM-INR:优先富多模态隐式大尺度场景神经表征。
十七、《MM-Point: Multi-View Information-Enhanced Multi-Modal Self-Supervised 3D Point Cloud Understanding.》MM-Point:多视图信息增强的多模态自监督3D点云理解。
十八、《A Robust Mutual-Reinforcing Framework for 3D Multi-Modal Medical Image Fusion Based on Visual-Semantic Consistency. 》基于视觉-语义一致性的三维多模态医学图像融合鲁棒框架
十九、《M2Doc: A Multi-Modal Fusion Approach for Document Layout Analysis》M2Doc：一种多模态融合的文档布局分析方法
二十、《SimDistill: Simulated Multi-Modal Distillation for BEV 3D Object Detection. 》sim蒸馏:用于BEV三维目标检测的模拟多模态蒸馏。

一、《A Multi-Modal Contrastive Diffusion Model for Therapeutic Peptide Generation.》治疗肽生成的多模态对比扩散模型。

治疗肽是一类独特的药物制剂，对人类疾病的治疗至关重要。近年来，深度生成模型在生成治疗肽方面显示出了巨大的潜力，但它们仅利用序列或结构信息，这阻碍了生成的性能。在这项研究中，我们提出了一个多模态对比扩散模型(MMCD)，在扩散框架中融合序列和结构模式，共同产生新的肽序列和结构。具体而言，MMCD分别构建了序列-模态和结构-模态扩散模型，并设计了在每个扩散时间步具有间对比和内对比的多模态对比学习策略，旨在捕捉两模态之间的一致性，提高模型性能。相互对比通过最大化其嵌入的一致性来对齐肽的序列和结构，而内部对比通过最大化其序列/结构嵌入的不一致来区分治疗和非治疗肽。广泛的实验表明，MMCD在多种指标(包括抗菌/抗癌评分、多样性和肽对接)上比其他最先进的深度生成方法在生成治疗性肽方面表现更好。
在这里插入图片描述

图1:MMCD的概述。MMCD由肽序列-结构共生成的扩散模型和多模态对比学习。扩散模型包括一个加入噪声的前向过程(q(·|·))和一个反向过程过程(p(·|·))在每个时间步长t进行去噪。反向过程利用变压器编码器(或EGNN)来提取来自序列S(或结构C)的嵌入，以及基于序列(或结构)的MLP将嵌入映射到边缘分布(或高斯)噪声。多模态CL包括Inter-CL和Intra-CL，其目的是对齐序列和构建嵌入，并区分治疗性和非治疗性肽嵌入。

二、《Local-Global Multi-Modal Distillation for Weakly-Supervised Temporal Video Grounding.》弱监督时域视频接地的局部-全局多模态精馏。

本文首次利用多模态视频进行弱监督时域视频接地。由于标记视频时刻是劳动密集型和主观性的，近年来，弱监督的方法越来越受到关注。然而，由于监督不足，这些方法本身可能会损害性能。因此，为了应对这一挑战，我们首次注意利用从多模态视频中提取的互补信息(例如，RGB帧，光流)，在弱监督环境中自然引入更丰富的监督。我们的动机是通过整合视频的不同模式，从协同监督中学习模型，从而获得更好的泛化能力。然而，处理多个模态†也将不可避免地引入额外的计算开销，并且如果无法访问特定模态，则可能变得不适用。为了解决这个问题，我们采用了一种新颖的方法:构建一个多模态蒸馏算法，利用多模态知识作为模型训练的监督，同时在推理过程中仍然能够只使用单一模态输入。因此，我们可以利用多模态的补充特性带来的好处，而不会影响其在实际场景中的适用性。具体来说，我们首先提出了一个跨模态相互学习框架，并训练了一个复杂的教师模型来从多模态视频中进行协作学习。然后，我们从教师模型中识别出两类知识，即时间边界和语义激活图。我们设计了一个局部-全局蒸馏算法，将这些知识转移到局部和全局水平的单模态输入的学生模型中。在大规模数据集上的大量实验表明，我们的方法在有/没有多模态输入的情况下实现了最先进的性能。
在这里插入图片描述

局部-全局多模态蒸馏(MMDist)综述它包括1)使用局部全局对比学习的单模态基线，2)在局部和全局级别使用多模态蒸馏算法的单模态学生模型，3)跨模态互学的多模态教师模式。深绿色代表的提案候选人那些被预测为积极的。

三、《Learning Multi-Modal Cross-Scale Deformable Transformer Network for Unregistered Hyperspectral Image Super-resolution.》非配准高光谱图像超分辨率的多模态跨尺度变形变压器网络学习。

高光谱图像超分辨率(HSI- sr)是一种提高高光谱图像空间分辨率的技术。现有的基于融合的SR方法表现出了较好的性能，但仍存在以下问题:1)现有方法假设提供空间信息的辅助图像与HSI严格配准，但由于拍摄平台、拍摄视点和大气湍流的影响，图像难以精细配准;2)大多数方法基于卷积神经网络(cnn)，对局部特征有效，但不能利用全局特征。为此，我们提出了一个多模态跨尺度变形变压器网络(M2DTN)来实现未注册的HSI-SR。具体而言，我们从实际退化场景出发，建立了基于频谱保持的空间引导配准- sr统一模型(SSRU)。根据SSRU，我们提出了多模态配准变形模块(MMRD)，通过形变场在不同模态之间对齐特征。为了有效利用不同模态之间的独特信息，我们设计了多尺度特征转换器(MSFT)来强调不同尺度下的空间光谱特征。此外，我们提出了跨尺度特征聚合模块(CSFA)，通过聚合不同尺度的特征信息来精确重构恒生指数。实验表明，M2DTN优于最先进的HSI-SR方法。代码可从https://github.com/Jiahuiqu/M2DTN获得。
在这里插入图片描述