让大模型“瘦身”又开挂!迁移+多模态竟能这么丝滑!

关注gongzhonghao【学术鲸】,获取相关最新选题和idea

分享一个在大模型时代“真香”的研究方向:迁移学习+多模态融合。

众所周知,视觉、文本、音频乃至遥感元数据一起上阵时,模型体量和微调开销立刻爆表;再加上跨模态对齐难、标注贵、场景泛化差,高效迁移就成了刚需。于是研究圈火力全开,创新点也迅速收敛到几条主线:如何只动少量参数就让大模型“秒换赛道”?怎样让任务需求动态决定融合策略?能否用统一框架把知识一次性蒸馏到任意单模态学生?又或者在缺失模态和跨域场景下依旧稳如老狗?

小图特意把这三篇论文拆给你看,助你找到下一篇顶会的切入口

MIGE: Mutually Enhanced Multimodal Instruction-Based Image Generation and Editing

方法:

MIGE 把两种任务都表达为“多模态指令+条件图”的同一输入输出格式,用统一的 Transformer 扩散模型在潜空间联合训练;它通过 Q-Former 将 VAE 的视觉 token 与 CLIP 的语义 token 融合后送入冻结的 Flan-T5 编码器,生成统一的跨模态条件;训练时混合 200 余万条主体生成、编辑及组合任务样本,并以 5% 随机丢弃条件实现无分类器引导,最终在三个任务上全面超越单任务或早期统一模型。

图片

创新点:

  • 首次提出将主体驱动生成与指令式编辑统一到一个多模态指令空间进行联合训练,实现任务互增强。

  • 设计了一种融合 VAE 细粒度视觉特征与 CLIP 语义特征的多模态编码器,仅用 32 个 token 就同时保留主体细节与语义信息。

  • 构建首个无掩膜的“指令式主体驱动编辑”新任务及 MIGEBench 评测集,并给出基于 MLLM 的自动化数据构造流水线。

图片

论文链接:

https://arxiv.org/pdf/2502.21291

关注gongzhonghao【学术鲸】,获取相关最新选题和idea

MetaSegNet: Metadata-collaborative Vision Language Representation Learning for Semantic Segmentation of Remote Sensing Images 

方法:

MetaSegNet 以 Swin Transformer 作图像编码器、冻结的 BERT 作文本编码器,将 ChatGPT 根据图像元数据生成的气候-地物提示编码为文本特征;两路特征先通过对比学习对齐,再由交叉注意力和通道级全局先验完成深度融合;最终融合特征送入分割头,在 OpenEarthMap、Potsdam、LoveDA 三大数据集上均取得 SOTA 或极具竞争力的结果,并展示优越的零-shot 迁移性能。

图片

创新点:

  • 提出元数据协同框架 MetaSegNet,把可免费获取的图像元数据转化为知识型地理文本提示,实现遥感语义分割任务的知识驱动增强。

  • 设计 ChatGPT 自动提示生成管线,仅依据气候分区即可产出专业级地物描述,显著降低人工标注成本。

  • 构建轻量级跨模态注意力融合解码器 CAFDecoder,以“先对齐后融合”策略显式建模图文依赖,在模块级即插即用提升精度。

图片

论文链接:

https://arxiv.org/pdf/2312.12735

关注gongzhonghao【学术鲸】,获取相关最新选题和idea

VIDEOADVISER: VIDEO KNOWLEDGE DISTILLATION FOR MULTIMODAL TRANSFER LEARNING

方法:

以冻结视觉权重、开放文本权重的CLIP为教师,通过CCT、MIT与视频提示模块将帧级视觉、面部特征及文本提示融合,生成视频logit与视频增强提示logit;以RoBERTa为学生,仅输入语音文本,通过最小化教师视频logit与自身文本logit间的MSE完成第二步蒸馏,同时用联合损失兼顾教师分类-回归对齐与学生回归精度;端到端训练后,学生即可在推理时仅凭文本完成情感强度预测或跨模态检索,无需任何视觉/音频输入。

图片

创新点:

  • 提出两步递进式知识蒸馏损失,先由分类logits回归出连续视频logit,再将其细粒度地迁移给学生,实现跨粒度跨模态知识传递。

  • 首次把CLIP、面部编码器与视频特定提示模块整合为统一教师,生成富含情感的视频增强提示表征。

  • 仅用文本输入的学生在情感分析和跨模态检索上超越SOTA,MAE降12.3%,mAP升3.4%,参数量减半,推理零额外计算。

图片

论文链接:

https://arxiv.org/pdf/2309.15494

► 论文发表难题,一站式解决!

TURING

选题是论文的第一步,非常重要!

但很多学生找到了热门的选题,却卡在代码和写作上!可见论文要录用,选题-idea-代码-写作都缺一不可!

图灵学术论文辅导,汇聚经验丰富的实战派导师团队,针对计算机各类领域提供1v1专业指导,直至论文录用

本文选自gongzhonghao【学术鲸】

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值