一、研究背景
-
图像表示的局限性:
- 传统的卷积神经网络(CNN)和Transformer将图像视为规则的网格或序列结构,难以灵活捕捉不规则和复杂形状的对象。
- CNN通过滑动窗口引入平移不变性和局部性,但其结构对于处理非矩形对象较为冗余。
- Transformer和MLP虽然在视觉任务中取得了优异性能,但它们的表示方式也受到序列结构的限制。
-
图结构的优势:
- 图结构是一种更灵活的表示方式,能够自然地表示复杂对象及其部分之间的关系。
- 图结构可以看作是网格和序列结构的泛化形式,更适合处理不规则形状的对象。
-
研究目标:
- 提出一种基于图神经网络(GNN)的视觉模型Vision GNN(ViG),用于图像分类和目标检测等视觉任务。
二、ViG模型
-
图结构的构建:
- 将图像分割成多个补丁(patches),并将这些补丁视为图中的节点。
- 通过连接每个节点的最近邻节点来构建图结构。
-
ViG模块:
- Grapher模块:基于图卷积的操作,用于聚合和更新图信息。采用最大相对图卷积