多模态+小样本杀疯了!CLIP+Transformer双剑合璧,再登顶会

多模态+小样本杀疯了!CLIP+Transformer双剑合璧,再登顶会

当多模态遇上小样本:人工智能的下一个破局点来了!

数据饥渴"与"模态富矿"的矛盾,正是多模态小样本学习(Multimodal Few-Shot Learning)致力攻克的科学难题。作为AI领域冉冉升起的新星,该方向通过模拟人类多感官协同认知机制,在有限样本中萃取跨模态关联,正掀起医疗诊断、机器人交互、智能安防等领域的技术革新浪潮。

这个方向巧妙融合了双重技术红利:多模态学习突破单一数据维度,让模型像人类一样"视听嗅触"协同感知;小样本学习则在数据饥渴环境下,赋予AI举一反三的元学习能力。两者的化学反应,正在催生新一代更接近人类认知范式的智能系统。其技术魅力在于双重破壁:一方面,多源信息互补能显著缓解小样本的数据稀疏困境(如利用语音描述增强图像特征表示);另一方面,小样本框架为多模态对齐提供了轻量化解决方案(如原型网络实现跨模态特征蒸馏)。

当前技术演进呈现三大趋势:跨模态原型蒸馏增强特征鲁棒性、图神经网络与Transformer的深度融合构建认知图谱、元学习框架下的动态模态权重分配。

本文整理了【8篇】多模态+小样本方向的最新方案,都是大佬团队出品,开源的都附上了代码方便复现,希望能给各位的论文加加速。

感兴趣的可以 [丝 xin] 我~~

【论文1】《Multimodal Prototype-Enhanced Network for Few-Shot Action Recognition》

在这里插入图片描述

 

方法介绍

该文献提出了一种多模态原型增强网络(MORN),用于少样本动作识别。 在这里插入图片描述

在视觉流部分,MORN使用CLIP视觉编码器对视频帧进行编码,获取视频特征,然后通过TRX模块计算得到视觉原型。对于文本流,MORN利用冻结的CLIP文本编码器对标签文本进行编码,获取文本特征,并通过语义增强模块和膨胀操作得到文本原型。为了融合两种模态的信息,MORN设计了多模态原型增强模块(MPE),将视觉原型和文本原型通过加权平均等方法进行结合,形成更具代表性的多模态原型。

此外,为了评估原型的质量,文献还定义了原型相似性差异(PRIDE)指标,通过计算原型与真实原型的相似性差异来衡量其类别区分能力,并将PRIDE融入训练过程以进一步提升模型性能。

创新点

  • 多模态原型增强策略:结合视频和标签文本两种模态的信息来增强原型,弥补单一模态的局限性,尤其在少样本场景下能提供更丰富的语义信息,提升模型性能。

  • 语义增强模块与多模态原型融合:引入语义增强模块挖掘文本特征中的语义信息,通过多模态原型增强模块将视觉原型和文本原型有效融合,形成更具判别力的多模态原型。

  • PRIDE指标的应用:PRIDE不仅用于量化评估原型质量,还能作为损失函数的一部分融入训练过程,进一步提升模型性能,这在以往研究中较少涉及。

  • 模型的通用性和有效性:MORN框架适用于多种基线模型,如STRM和TRX,且在多个数据集上均取得显著性能提升,证明了其方法的通用性和有效性。 在这里插入图片描述

论文链接:https://arxiv.org/pdf/2212.04873

【论文2】《Global contextual representation via graph-transformer fusion for hepatocellular carcinoma prognosis in whole-slide images》

方法介绍

本研究从TCGA-LIHC数据库选取362张WSI,涵盖355名HCC患者,经过去除背景区域和伪影、分割成小块等预处理后,使用ResNet50模型提取特征,构建WSI-Graph。TransGNN模型结合GNN模块和Transformer模块,前者通过GIN结构学习图结构,后者通过多头自注意力机制捕捉全局上下文信息。模型训练采用基于Cox回归的损失函数,使用PyTorch框架在NVIDIA RTX A6000 GPU的Linux系统上实现,数据按7:3比例分为训练集和测试集,并采用5折交叉验证策略。

模型评估使用多种指标和方法,包括C-Index、时间依赖的ROC曲线和AUC值、Kaplan-Meier生存曲线、单变量和多变量Cox回归分析等,还进行了不同放大倍数的病理图像实验和模型可视化解释。这种研究方法创新地结合了GNN和Transformer模块,构建了TransGNN框架,通过WSI-Graph准确反映组织块间的空间关系和拓扑结构,采用适合生存分析任务的损失函数,并通过多尺度放大倍数实验和模型可解释性探索,为HCC预后分析提供了更准确、全面的解决方案。 在这里插入图片描述

创新点

  • 模型架构创新:首次将GNN模块和Transformer模块相结合,形成TransGNN框架,用于HCC预后分析。

  • WSI-Graph构建策略:提出了一种基于WSI前景区域信息的图构建方法,将每个小块视为图的节点,并根据其在原始WSI中的实际空间位置构建邻接矩阵,确保了图结构能够准确反映组织块间的空间关系和拓扑结构。

  • 损失函数设计:针对生存分析任务的特点,采用了基于Cox回归的负对数部分似然函数作为损失函数,能够有效地处理被截尾的生存数据,充分利用患者的观察时间和截尾指示信息。

  • 多尺度放大倍数实验:通过在不同放大倍数(10×、20×、40×)的病理图像上进行实验,分析了放大倍数对模型性能的影响,发现较低放大倍数下模型对整体空间结构信息更敏感,为后续研究中选择合适的图像放大倍数提供了参考,有助于进一步优化模型性能和提高计算效率。

  • 模型可解释性探索:利用Graph-CAM技术对TransGNN模型进行可视化解释,能够直观地展示模型在预测HCC风险评分时对不同组织区域的关注程度,为病理学家提供了理解模型决策过程的工具。 在这里插入图片描述

论文链接:https://www.sciencedirect.com/science/article/abs/pii/S0895611124000557

感兴趣的可以 [丝 xin] 我~~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值