2023-CVPR-OSAN: A One-Stage Alignment Network to Unify Multimodal Alignment and UDA

本文探讨了无监督多模态域自适应中的挑战,提出了一种新方法,包括张量对齐(TAL)模块和动态域生成器(DDG),旨在建立跨域和模态的共享表示,通过自监督学习改善特征对齐并减少信息冗余。
部署运行你感兴趣的模型镜像

一、研究背景
无监督多模态域自适应有两个主要问题:域适应和模态对齐。现有工作通常用独立的两个阶段处理上述问题,因此难以利用域和模态之间的互补信息。

二、研究目标
1.探索域与模态之间的关系;
2.寻找一个共同的域不变、跨模态表示空间来同时对齐域和模态。

三、研究动机
直接使用原始源域、目标域特征进行对抗性学习效果不佳:不同域之间的差距极大,难以学到共有特征
直接进行特征混合会造成信息冗余和震荡。

四、技术路线
在这里插入图片描述

  1. Tensor-based Alignment:提出基于张量的对齐模块(TAL)来探索域和模态之间的关系,同时对齐域和模态,并利用互补信息获得更好的结果。
    (1)建立特征对齐模型:
    U、VU、VUV对源域、目标域各模态的特征进行映射,将其映射到两个(源、目标)低维子空间;
    最大化不同域之间低维特征的相似度;
    约束同一模态内低维特征的相似度矩阵为单位阵III
    因此,当实现最佳映射时,最大相似度为IIIYV=XUYV=XUYV=XU
    在这里插入图片描述
    (2)模型求解:
    分解为NNN个可求解的子问题;
    在这里插入图片描述
    在这里插入图片描述
  2. Dynamic Domain Generator
    提出动态域生成器(DDG)模块,通过自监督的方式混合两个域的共享信息来构建过渡样本。
    (1)计算源-目标注意力矩阵MstM_{st}Mst
    (2)根据MstM_{st}Mst选择共性元素ccc,进行融合特征计算
    在这里插入图片描述

您可能感兴趣的与本文相关的镜像

Qwen3-VL-8B

Qwen3-VL-8B

图文对话
Qwen3-VL

Qwen3-VL是迄今为止 Qwen 系列中最强大的视觉-语言模型,这一代在各个方面都进行了全面升级:更优秀的文本理解和生成、更深入的视觉感知和推理、扩展的上下文长度、增强的空间和视频动态理解能力,以及更强的代理交互能力

评论 2
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

二苏旧局吖

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值