码科智能 | 无需坐标回归、不靠SAM拼接！微信视觉、南洋理工等提出大模型检测新范式，统一检测、分割、指代任务

最新推荐文章于 2025-11-23 19:43:35 发布

原创最新推荐文章于 2025-11-23 19:43:35 发布 · 1.1k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#数据挖掘 #深度学习 #机器学习 #计算机视觉 #人工智能 #figma #音视频

深度学习拓展阅读专栏收录该内容

989 篇文章

订阅专栏

本文来源公众号“码科智能”，仅用于学术分享，侵权删，干货满满。

原文链接：https://mp.weixin.qq.com/s/0-aJNZPFuPh66I_ZY1a1dg

让大模型学会用图像块说话

大多数 MLLMs 在做目标检测、指代分割这类任务时，采用的还是老办法，把边界框坐标 [x1,y1,x2,y2] 当作文本序列输出。

这种方式看似直观，实则问题重重（如下图），基于回归坐标出现问题的本质，是文本模态与视觉模态之间的深层未对齐。

格式混乱：即使在相同的提示下，不同样本的输出格式也常常不一致，从而增加了解析和结构化输出的难度；
语义断裂：坐标是数值，与图像块之间缺乏直接语义关联，模态错位；
幻觉频发：模型容易生成“图中没有的框”或重复预测同一物体。

边界框坐标表示的三大痛点

尽管像上篇文章介绍到的 Rex-Omni 这样的工作尝试通过自回归地生成一系列坐标点预测来提升定位精度，但其本质仍是用文字描述像素，难以从根本上解决语义割裂问题。

今天要介绍的这项来自华南理工大学、腾讯微信视觉、南洋理工大学等机构的联合研究——PaDT（Patch-as-Decodable Token），抛弃了目标检测坐标的表达形式，采用图像块即 Token 的新范式。

一、基于 MLLM 的检测方案

当前主流的 MLLM 视觉感知模型，视觉编码器对固定块网格的依赖会模糊局部细节，并损害诸如目标定位、计数或 OCR 等任务。

文本化坐标输出：如Qwen-VL、Rex-Omni等模型，将边界框编码为文本序列，由 LLM 自回归生成。但它们的致命弱点是回归数值被拆分成多个离散 token，破坏连续性，且缺乏与图像局部区域的显式绑定，易产生幻觉。

SAM4MLLM: Enhance Multi-Modal Large Language Model for Referring Expression Segmentation | NVIDIA Research Taiwan

拼接式架构：如 LISA、Seg-R1 等模型，先用 SAM 分割出候选区域，再交给 MLLM 匹配语义。这种两段式设计虽能提升分割质量，但严重依赖外部模型部署复杂，且无法实现真正的端到端训练。

# 项目
Patch-as-Decodable-Token: Towards Unified Multi-Modal Vision Tasks in MLLMs
# 论文
https://arxiv.org/pdf/2510.01954
# 代码
https://github.com/Gorilla-Lab-SCUT/PaDT
# 项目
https://https://huggingface.co/collections/PaDT-MLLM/padt-dataset-68e400440ffb8c8f95e5ee20

二、PaDT 核心技术革新

PaDT 的核心思想是：让大模型学会“用图像块说话”，它引入了一种新型令牌：视觉参考令牌（VRT），彻底打通文本与视觉的语义鸿沟，从而避免了“幻觉框”和错位问题。

视觉参考令牌的生成过程如下：

图像被切分为 N 个 patch，每个 patch 经过视觉编码器得到嵌入向量；
这些嵌入向量作为“候选视觉词”，构成一个动态嵌入表；
在推理时，LLM 不再输出坐标，而是输出一组 VRT，如 <VRT_130>、<VRT_148>，这些 VRT 明确指向图像中的特定区域，天然具备空间语义。