ViG:图像分类领域前沿


✨✨ 欢迎大家来访Srlua的博文(づ ̄3 ̄)づ╭❤~✨✨

🌟🌟 欢迎各位亲爱的读者,感谢你们抽出宝贵的时间来阅读我的文章。

我是Srlua小谢,在这里我会分享我的知识和经验。🎥

希望在这里,我们能一起探索IT世界的奥妙,提升我们的技能。🔮

记得先点赞👍后阅读哦~ 👏👏

📘📚 所属专栏:传知代码论文复现

欢迎访问我的主页:Srlua小谢 获取更多信息和资源。✨✨🌙🌙

​​

​​

目录

图片分类任务方法概述

卷积神经网络(CNN)

视觉Transformer(ViT)

视觉图神经网络(ViG)

ViG模型

图片切成patch

模型架构

图像输入

图结构生成

网络模块

图处理

特征变换

多尺度处理

输出头

ViG代码

PatchEmbedding

模型主体架构设计

核心代码

演示效果

附件使用

安装相应依赖包

获取cifa10数据集

运行代码


   本文所有资源均可在该地址处获取。

图片分类任务方法概述

卷积神经网络(CNN)

发展背景: CNN的出现标志着深度学习在图像识别领域的重大突破。最早的CNN模型可以追溯到1998年的LeNet,而2012年的AlexNet模型在ImageNet竞赛中取得优异成绩,使得CNN成为图像分类任务的主流方法。

分类方法优点:

局部感知野: 通过卷积操作,CNN能够捕捉图像的局部特征,减少参数数量。
参数共享: 卷积核在整张图像上共享,提高了模型的泛化能力。
平移不变性: CNN具有平移不变性,能够识别图像中的物体,即使它们的位置发生变化。

视觉Transformer(ViT)

发展背景: ViT于2020年被提出,借鉴了自然语言处理领域的Transformer架构,将自注意力机制应用于图像分类任务。

分类方法优点:

自注意力机制: 能够捕捉图像中的长距离依赖关系,提高分类准确性。
可扩展性: Transformer结构易于扩展,适用于大规模数据集。
并行计算: 自注意力机制使得ViT能够更好地利用并行计算资源。

视觉图神经网络(ViG)

发展背景: ViG的提出是为了解决CNN和ViT在处理不规则和复杂目标时的局限性。ViG将图像视为图结构,通过图卷积操作进行特征提取和分类。

分类方法优点:

灵活的图结构: ViG采用图结构表示图像,能够更好地处理不规则形状的物体,提高对复杂场景的识别能力。
图卷积操作: 通过图卷积,ViG能够有效地聚合和更新节点信息,捕捉局部和全局特征。
节点特征变换: FFN模块(多层感知器)用于节点特征变换,增强了模型的表达能力

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值