图像分割HiMTok: Learning Hierarchical Mask Tokens for Image Segmentation with Large Multimodal Model

论文作者:Tao Wang,Changxu Cheng,Lingfeng Wang,Senda Chen,Wuyue Zhao

作者单位:Uni-Ubi ;Zhejiang University;Tongji University

论文链接:http://arxiv.org/abs/2503.13026v1

内容简介:

1)方向:图像分割

2)应用:图像分割

3)背景:随着大规模多模态模型的出色表现,图像分割社区开始关注如何借助LMMs提高分割能力。目前的LMM驱动分割方法通常使用物体边界点表示掩膜或引入特殊的分割标记,这些标记的隐藏状态由分割模型解码,且需要原始图像作为输入。然而,这些方法往往存在掩膜表示不足和架构复杂的问题,限制了LMMs的潜力。

4)方法:为了克服现有方法的局限,本文提出了分层掩膜标记器(HiMTok),该方法通过最多32个标记表示分割掩膜,并在去标记化过程中无需原始图像。HiMTok支持紧凑的粗到细的掩膜表示,与LMM的下一个标记预测范式高度契合,有效地实现了分割能力的直接获取。此外,开发了一种三阶段训练方案,逐步学习分割和视觉能力,并采用分层掩膜损失进行有效的粗到细学习。此外,该方法支持双向信息流动,允许在边界框和掩膜标记之间进行转换,充分利用多任务训练的潜力。

5)结果:广泛的实验表明,HiMTok方法在多个分割任务中实现了最先进的性能,同时还增强了视觉定位能力,并保持了整体的视觉理解能力。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Qing_er爱吃山竹

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值