论文作者:Tao Wang,Changxu Cheng,Lingfeng Wang,Senda Chen,Wuyue Zhao
作者单位:Uni-Ubi ;Zhejiang University;Tongji University
论文链接:http://arxiv.org/abs/2503.13026v1
内容简介:
1)方向:图像分割
2)应用:图像分割
3)背景:随着大规模多模态模型的出色表现,图像分割社区开始关注如何借助LMMs提高分割能力。目前的LMM驱动分割方法通常使用物体边界点表示掩膜或引入特殊的分割标记,这些标记的隐藏状态由分割模型解码,且需要原始图像作为输入。然而,这些方法往往存在掩膜表示不足和架构复杂的问题,限制了LMMs的潜力。
4)方法:为了克服现有方法的局限,本文提出了分层掩膜标记器(HiMTok),该方法通过最多32个标记表示分割掩膜,并在去标记化过程中无需原始图像。HiMTok支持紧凑的粗到细的掩膜表示,与LMM的下一个标记预测范式高度契合,有效地实现了分割能力的直接获取。此外,开发了一种三阶段训练方案,逐步学习分割和视觉能力,并采用分层掩膜损失进行有效的粗到细学习。此外,该方法支持双向信息流动,允许在边界框和掩膜标记之间进行转换,充分利用多任务训练的潜力。
5)结果:广泛的实验表明,HiMTok方法在多个分割任务中实现了最先进的性能,同时还增强了视觉定位能力,并保持了整体的视觉理解能力。