Vision GNN: An Image is Worth Graph of Nodes学习笔记

一、研究背景

  1. 图像表示的局限性

    • 传统的卷积神经网络(CNN)和Transformer将图像视为规则的网格或序列结构,难以灵活捕捉不规则和复杂形状的对象。
    • CNN通过滑动窗口引入平移不变性和局部性,但其结构对于处理非矩形对象较为冗余。
    • Transformer和MLP虽然在视觉任务中取得了优异性能,但它们的表示方式也受到序列结构的限制。
  2. 图结构的优势

    • 图结构是一种更灵活的表示方式,能够自然地表示复杂对象及其部分之间的关系。
    • 图结构可以看作是网格和序列结构的泛化形式,更适合处理不规则形状的对象。
  3. 研究目标

    • 提出一种基于图神经网络(GNN)的视觉模型Vision GNN(ViG),用于图像分类和目标检测等视觉任务。

二、ViG模型

  1. 图结构的构建

    • 将图像分割成多个补丁(patches),并将这些补丁视为图中的节点。
    • 通过连接每个节点的最近邻节点来构建图结构。
  2. ViG模块

    • Grapher模块:基于图卷积的操作,用于聚合和更新图信息。采用最大相对图卷积
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值