发表时间:27 Jun 2024
论文链接:https://arxiv.org/pdf/2406.19389
作者单位:Wuhan University
Motivation:目前的通用分割方法在像素级图像和视频理解方面表现出强大的能力。然而,它们缺乏推理能力,不能通过文本指令控制.相比之下,大型视觉语言多模态模型表现出强大的基于视觉的对话和推理能力,但缺乏像素级的理解,难以接受视觉提示进行灵活的用户交互。
解决方法:
本文提出了OMG-LLAVA,这是一个新颖而优雅的框架,结合了强大的像素级视觉理解与推理能力。它可以接受各种视觉和文本提示进行灵活的用户交互。具体来说,我们使用通用分割方法作为视觉编码器,将图像信息、感知先验和视觉提示集成到LLM提供的视觉标记中。LLM负责理解用户的文本指令,并根据视觉信息提供文本响应和像素级分割结果。我们提出了感知先验嵌入,以更好地将感知先验与图像特征集成。
实现方式:整体模型架构:

Image Encoder(包含在OMG-Seg中):将基于Con

最低0.47元/天 解锁文章
1046

被折叠的 条评论
为什么被折叠?



