刷新10项分割SOTA！清华和美团提出HyperSeg：通用分割框架

最新推荐文章于 2024-12-22 01:00:00 发布

转载最新推荐文章于 2024-12-22 01:00:00 发布 · 1.2k 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247646902&idx=3&sn=fe07ca6a66ba922d8c40c0bb27123601&chksm=cf38ba7a4ad58b286e9db501f99f5dfee431e50ea57965d00e3fdcb74fe53b14e03a63568152&scene=126&sessionid=0

部署运行你感兴趣的模型镜像

编辑 | 极市平台

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『语义分割』技术交流群

本文只做学术分享，如有侵权，联系删文

导读

首个基于视觉大语言模型（VLLM）的通用分割模型，能够处理像素级的图像和视频感知任务，并具备复杂的推理和对话能力。HyperSeg在多个分割任务中刷新了10项SOTA（State of the Art），展现了其在视觉-语言推理感知任务中的卓越性能。模型和代码已开源。

近来，视觉大语言模型（VLLM）在多种视觉-语言理解任务中表现出色的推理和对话能力。然而，这些方法基于全局的视觉-语言对齐，限制了其在视觉感知任务中细节理解能力，如图像和视频域的像素级分割。近期的研究使VLLM能够进行细粒度的视觉理解，如指代分割（RES）和推理分割（ReasoningSeg）。尽管这些方法的表现令人瞩目，目前仍缺乏基于VLLM的通用分割框架，可以同时处理图像和视频域的诸多视觉感知任务，以及更复杂的推理分割任务，并且同时具备VLLM本身强大的对话推理能力。

清华和美团的研究团队针对VLLM在细粒度视觉感知任务中的局限性，提出了统一的通用分割框架：HyperSeg。HyperSeg是首个基于VLLM的通用分割模型，可以同时处理像素级图像和视频感知，并具有复杂的推理和对话能力。HyperSeg在需要丰富世界知识的复杂视觉-语言推理感知任务中表现出色，这对于现实世界的理解和交互具有重要意义。HyperSeg把诸多感知任务划分为两种统一的prompt格式：（1）文本提示（类别名称、推理问题和指代语句），（2）视觉提示（框、掩码等）。得益于对多样分割任务和不同视觉域数据的协同训练，HyperSeg可以学习不同指令和视觉概念之间复杂关联。

HyperSeg贡献如下：

首个基于视觉大语言模型（VLLM）的通用分割模型，用于像素级的图像和视频感知，涵盖了诸多常见分割任务、复杂推理分割任务以及基于对话的视觉-语言理解任务。
将混合实体识别和细粒度视觉感知策略整合到VLLM中，充分利用VLLM的语义识别能力以及注入更多细粒度的视觉信息。此外，得益于时序适配器的设计，模型能够处理更具挑战性的视频感知任务，提升通用分割能力。
模型性能优异，在多项通用分割任务中展示了强大的性能，对于开放分割以及多模态对话任务也展示出了令人瞩目的能力。

HyperSeg的模型和代码已开源：

论文：https://arxiv.org/abs/2411.17606

代码：https://github.com/congvvc/HyperSeg

模型实现：

HyperSeg的架构包含一个细粒度的金字塔视觉编码器、一个轻量级的视觉大语言模型（VLLM），一个细粒度视觉感知器（FVP）和一个分割预测器。模型根据视觉输入（图像或视频）和prompt输入（视觉或文本），输出分割掩码、类别得分和实例嵌入（用于视频实例跟踪）。FVP模块将多尺度高分辨率视觉特征融合于细粒度tokens，为LLM注入细粒度的视觉信息。LLM接收三种类型的输入：由CLIP编码器编码的视觉tokens、细粒度tokens以及多样化的prompt tokens。分割预测器接收语义增强的mask tokens、prompt 特征嵌入以及多尺度视觉特征作为输入，输出对应prompt下的分割结果。

细粒度视觉感知器（FVP）设计。以往的视觉感知器往往使用的是粗糙的单尺度CLIP视觉特征，相比之下FVP将多尺度的细粒度视觉特征融入LLM，更加适配细粒度视觉感知任务。

混合实体识别策略。相比于以往的generation-only (a) 方法以及decode-only (b) 方法，混合实体识别策略 (c) 结合语义类别识别以及类别相似度计算两种方式，得到每个分割掩码的得分。

模型性能对比

对于广泛使用的指代分割 (RES) 任务，HyperSeg在RefCOCO, RefCOCO+和RefCOCOg上均取得了最先进的性能，此外在G-RES基准gRefCOCO上也取得了令人瞩目的zero-shot性能。

对于更加复杂且具有挑战性的推理分割任务来说，HyperSeg以更少的模型参数（3B）大幅领先于先前最先进的方法，尤其是在ReVOS-Reasoning上带来了+12.1的性能提升。

此外，HyperSeg在传统的全景分割、语义分割、以及开放词汇分割任务的多个数据集上，无论是与以往的分割专家模型或是基于VLLM的分割模型相比，也取得了最先进或具有竞争力的结果。

HyperSeg在常见的视频分割任务如视频目标分割，指代视频目标分割及视频实例分割上也取得了令人印象深刻的性能表现。

最后，HyperSeg在常见的多模态问答任务上也有着不错的表现，展现了其在推理和对话方面的卓越能力。

下图展示了 HyperSeg在多个视觉分割任务上的可视化结果，如全景分割、指代分割、推理分割等。

总结

HyperSeg是首个基于视觉大语言模型（VLLM）的通用分割模型，专为像素级图像和视频感知设计，涵盖了广泛的通用分割和复杂推理任务。通过一些专有模块的设计，HyperSeg能灵活处理不同类型以及不同视觉域的分割任务，并且保留了强大的对话推理能力。HyperSeg拓展了VLLM在视觉感知以及推理任务中的可能性，并为未来可能的研究提供了一些insight。

① 2025中国国际新能源技术展会

自动驾驶之心联合主办中国国际新能源汽车技术、零部件及服务展会。展会将于2025年2月21日至24日在北京新国展二期举行，展览面积达到2万平方米，预计吸引来自世界各地的400多家参展商和2万名专业观众。作为新能源汽车领域的专业展，它将全面展示新能源汽车行业的最新成果和发展趋势，同期围绕个各关键板块举办论坛，欢迎报名参加。

② 国内首个自动驾驶学习社区

『自动驾驶之心知识星球』近4000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（端到端自动驾驶、世界模型、仿真闭环、2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎扫描加入

③全网独家视频课程

端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

④【自动驾驶之心】全平台矩阵

您可能感兴趣的与本文相关的镜像

Vllm-v0.11.0

Vllm

vLLM是伯克利大学LMSYS组织开源的大语言模型高速推理框架，旨在极大地提升实时场景下的语言模型服务的吞吐与内存使用效率。vLLM是一个快速且易于使用的库，用于 LLM 推理和服务，可以和HuggingFace 无缝集成。vLLM利用了全新的注意力算法「PagedAttention」，有效地管理注意力键和值