Thirty-Eighth AAAI Conference on Artificial Intelligence, AAAI 2024中multi-modal论文汇总(前20)

多模态技术在多领域的研究进展

系列文章目录


文章目录


一、《A Multi-Modal Contrastive Diffusion Model for Therapeutic Peptide Generation.》治疗肽生成的多模态对比扩散模型。

治疗肽是一类独特的药物制剂,对人类疾病的治疗至关重要。近年来,深度生成模型在生成治疗肽方面显示出了巨大的潜力,但它们仅利用序列或结构信息,这阻碍了生成的性能。在这项研究中,我们提出了一个多模态对比扩散模型(MMCD),在扩散框架中融合序列和结构模式,共同产生新的肽序列和结构。具体而言,MMCD分别构建了序列-模态和结构-模态扩散模型,并设计了在每个扩散时间步具有间对比和内对比的多模态对比学习策略,旨在捕捉两模态之间的一致性,提高模型性能。相互对比通过最大化其嵌入的一致性来对齐肽的序列和结构,而内部对比通过最大化其序列/结构嵌入的不一致来区分治疗和非治疗肽。广泛的实验表明,MMCD在多种指标(包括抗菌/抗癌评分、多样性和肽对接)上比其他最先进的深度生成方法在生成治疗性肽方面表现更好。
在这里插入图片描述

图1:MMCD的概述。MMCD由肽序列-结构共生成的扩散模型和多模态对比学习。扩散模型包括一个加入噪声的前向过程(q(·|·))和一个反向过程过程(p(·|·))在每个时间步长t进行去噪。反向过程利用变压器编码器(或EGNN)来提取来自序列S(或结构C)的嵌入,以及基于序列(或结构)的MLP将嵌入映射到边缘分布(或高斯)噪声。多模态CL包括Inter-CL和Intra-CL,其目的是对齐序列和构建嵌入,并区分治疗性和非治疗性肽嵌入。

二、《Local-Global Multi-Modal Distillation for Weakly-Supervised Temporal Video Grounding.》弱监督时域视频接地的局部-全局多模态精馏。

本文首次利用多模态视频进行弱监督时域视频接地。由于标记视频时刻是劳动密集型和主观性的,近年来,弱监督的方法越来越受到关注。然而,由于监督不足,这些方法本身可能会损害性能。因此,为了应对这一挑战,我们首次注意利用从多模态视频中提取的互补信息(例如,RGB帧,光流),在弱监督环境中自然引入更丰富的监督。我们的动机是通过整合视频的不同模式,从协同监督中学习模型,从而获得更好的泛化能力。然而,处理多个模态†也将不可避免地引入额外的计算开销,并且如果无法访问特定模态,则可能变得不适用。为了解决这个问题,我们采用了一种新颖的方法:构建一个多模态蒸馏算法,利用多模态知识作为模型训练的监督,同时在推理过程中仍然能够只使用单一模态输入。因此,我们可以利用多模态的补充特性带来的好处,而不会影响其在实际场景中的适用性。具体来说,我们首先提出了一个跨模态相互学习框架,并训练了一个复杂的教师模型来从多模态视频中进行协作学习。然后,我们从教师模型中识别出两类知识,即时间边界和语义激活图。我们设计了一个局部-全局蒸馏算法,将这些知识转移到局部和全局水平的单模态输入的学生模型中。在大规模数据集上的大量实验表明,我们的方法在有/没有多模态输入的情况下实现了最先进的性能。
在这里插入图片描述

局部-全局多模态蒸馏(MMDist)综述它包括1)使用局部全局对比学习的单模态基线,2)在局部和全局级别使用多模态蒸馏算法的单模态学生模型,3)跨模态互学的多模态教师模式。深绿色代表的提案候选人那些被预测为积极的。

三、《Learning Multi-Modal Cross-Scale Deformable Transformer Network for Unregistered Hyperspectral Image Super-resolution.》非配准高光谱图像超分辨率的多模态跨尺度变形变压器网络学习。

高光谱图像超分辨率(HSI- sr)是一种提高高光谱图像空间分辨率的技术。现有的基于融合的SR方法表现出了较好的性能,但仍存在以下问题:1)现有方法假设提供空间信息的辅助图像与HSI严格配准,但由于拍摄平台、拍摄视点和大气湍流的影响,图像难以精细配准;2)大多数方法基于卷积神经网络(cnn),对局部特征有效,但不能利用全局特征。为此,我们提出了一个多模态跨尺度变形变压器网络(M2DTN)来实现未注册的HSI-SR。具体而言,我们从实际退化场景出发,建立了基于频谱保持的空间引导配准- sr统一模型(SSRU)。根据SSRU,我们提出了多模态配准变形模块(MMRD),通过形变场在不同模态之间对齐特征。为了有效利用不同模态之间的独特信息,我们设计了多尺度特征转换器(MSFT)来强调不同尺度下的空间光谱特征。此外,我们提出了跨尺度特征聚合模块(CSFA),通过聚合不同尺度的特征信息来精确重构恒生指数。实验表明,M2DTN优于最先进的HSI-SR方法。代码可从https://github.com/Jiahuiqu/M2DTN获得。
在这里插入图片描述

M 2 D T N M^2DTN M2DTN概述。图中, i ∈ [ 0 , N ] i∈[0,N] i[0,N]表示刻度大小,对应的刻度 0 0 0号是最大的刻度。

四、《LAMM: Label Alignment for Multi-Modal Prompt Learning.》

详细内容

五、《Prompting Multi-Modal Image Segmentation with Semantic Grouping.》基于语义分组的多模态图像分割。

多模态图像分割是计算机视觉的核心问题之一。主要的挑战在于集成模式之间的公共信息,同时为每个模式保留特定的模式。现有的方法通常对基于rgb的预训练参数执行完全微调,以继承基础模型的强大表示。这种模式虽然有效,但由于可移植性弱和下游数据稀缺,并不是最优的。受近期语言

<think> 嗯,用户现在询问的是"Thirty-two-bit"的含义。结合之的对话历史,用户之问过"back to back frame",现在转向计算机体系结构中的位宽概念,说明ta可能在研究底层技术或网络设备性能测试相关主题。 注意到用户特意提供两个引用但声明"不是真正需求",这提示需要完全忽略引用内容。上次回答详细解释了背靠背帧,现在需要无缝切换到新术语的解析。 Thirty-two-bit这个概念需要从三个层面展开:首先是字面宽度(32位二进制),其次是硬件实现(CPU/总线),最后是软件影响(寻址/数据类型)。用户可能想了解为什么32位系统被淘汰,或者某些设备仍使用32位架构的原因。 准备在回答中强调关键转折点:4GB内存限制源于$2^{32}$寻址空间,这个数学关系需要明确标注。同时要指出现代场景如嵌入式系统中32位的持续应用,避免让用户产生"32位已完全过时"的误解。 考虑到用户连续询问专业术语,猜测可能是工程师或学生。会在最后的相关问题中设置进阶选项:包括与64位对比、具体应用场景判断等,方便ta延续学习路径。特别要加入"物联网设备为何坚守32位"这个问题,因为这与当行业实践紧密相关。 </think> "Thirty-two-bit"(32 位)指**计算机系统中数据总线、寄存器或指令宽度为 32 位二进制单位**的核心特性。其核心含义与影响如下: ### 核心定义 - **位宽基础**:32 位表示处理器单次可处理数据的最大位数为 32(即 $2^{32}$ 种状态)。 - **物理实现**:CPU 寄存器、内存地址总线或数据总线设计为 32 位并行传输能力。 ### 关键技术影响 1. **内存寻址能力** 最大支持内存地址空间为 $2^{32} = 4,294,967,296$ 字节(即 **4GB**)。这是 32 位系统的根本限制[^1],例如: ```mermaid graph LR A[32位地址总线] -->|寻址空间| B[$2^{32}$ 地址] B --> C[4GB RAM上限] ``` 2. **数据处理效率** - 单指令可操作 32 位整数(范围 $-2^{31}$ 到 $2^{31}-1$) - 浮点数精度:单精度浮点(32 位)支持 7 位有效数字 - 对比公式: **数据吞吐量** = 总线频率 × 位宽 / 传输周期 例如 100MHz 32 位总线理论带宽 = $100 \times 10^6 \times 32 / 8$ = **400MB/s** 3. **兼容性特征** | 项目 | 32位系统 | 64位系统 | |---------------|--------------------------|--------------------------| | 操作系统 | Windows XP, Linux i386 | Windows x64, Linux x86_64| | 软件运行 | 专属32位程序 | 可兼容运行32位程序 | | 驱动要求 | 需32位专用驱动 | 需64位专用驱动 | ### 典型应用场景 - **遗留系统**:工业控制设备、ATM 机等专用设备 - **嵌入式领域**:微控制器(如 ARM Cortex-M 系列)[^2] - **移动端历史**:早期智能手机(2013 年 Android/iOS 设备) > **示例**:Windows 7 32 位版即使安装 8GB 物理内存,实际可用内存仍被限制在约 3.5GB,这是地址空间上限的直接体现[^1]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值