浙大李玺团队:指代表达理解新方法,ScanFormer粗到细迭代消除视觉冗余

该论文作者均来自于浙江大学李玺教授团队,论文第一作者为博士生苏伟同学,通讯作者为李玺教授(IET Fellow,国家杰青)。李玺教授团队近年来在国际权威期刊(如 TPAMI、IJCV 等)和国际顶级学术会议(ICCV、CVPR、ECCV 等)上发表 180 余篇 CV/AIGC 相关的研究工作,和国内外知名高校、科研机构广泛开展合作。

作为基础的视觉语言任务,指代表达理解(referring expression comprehension, REC)根据自然语言描述来定位图中被指代的目标。REC 模型通常由三部分组成:视觉编码器、文本编码器和跨模态交互,分别用于提取视觉特征、文本特征和跨模态特征特征交互与增强。

目前的研究大多集中在设计高效的跨模态交互模块以提升任务精度,缺少对视觉编码器探索。常见做法是利用在分类、检测任务上预训练的特征提取器,如 ResNet、DarkNet、Swin Transformer 或 ViT 等。这些模型以滑动窗口或划分 patch 的方式遍历图像所有的空间位置来提取特征,其计算复杂度会随图像分辨率快速增长,在基于 Transformer 的模型中更加明显。

由于图像的空间冗余特性,图像中存在大量低信息量的背景区域以及与指代表达无关的区域,以相同的方式在这些区域提取特征会增加计算量但对有效特征提取没有任何帮助。更加高效的方式是提前预测图像区域的文本相关性和内容的丰富程度,对文本相关的前景区域充分提取特征,对背景区域粗略提取特征。对于区域预测,一个较为直观的方式是通过图像金字塔来实现,在金字塔顶层的粗粒度图像中提前辨识背景区域,之后逐步加入高分辨率的细粒度前景区域。

基于以上分析,我们提出了 coarse-to-fine 的迭代感知框架 ScanFormer,在图像金字塔中逐层 scan,从低分辨率的粗尺度图像开始,逐步过滤掉指代表达无关 / 背景区域来降低计算浪费,使模型更多地关注前景 / 任务相关区域。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值