摘要
现有的大部分方法更加依赖于视觉特征取生成分割掩码,只是将文本特征作为支持的组件。作者认为在文本提示不明确或者依赖于上下文的复杂场景中会导致次优的结果。
为此作者提出了VATEX框架:通过视觉感知的文本特征增强对象和上下文的理解来改善RIS。
网络框架

概述
1.CLIP Prior模块结合图像和文本生成一个以对象为中心的视觉热图。用于初始化DETR-based方法的对象查询。
2.使用上下文解码器(交叉注意力模块)对文本特征和视觉特征进行交互。利用Meaning Consistency Constraint获得有意义且一致的特征空间。
3.利用masked-attention transformer decoder使用多尺度文本引导的视觉特征增强对象查询。最后增强的对象查询和CMD的视觉特征被用来输出分割掩码。
以上是论文中的概述,看完很懵,看具体实现细节。
实现细节
的图片,经过visual encoder得到多尺度视觉特征

最低0.47元/天 解锁文章
779

被折叠的 条评论
为什么被折叠?



