Mask-RCNN(2)Resnet101

本文详细介绍了深度学习中用于图像理解的ResNet101网络结构,包括其ConvBlock和IdentityBlock组件。ResNet101以Resnet101作为主干网络,通过构建特征金字塔,利用不同尺度的特征层C2、C3、C4、C5进行融合。特征金字塔有助于提高目标检测的准确性。此外,文章还探讨了如何通过1x1卷积减少参数量并增强网络深度。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.在这里插入图片描述

对应着图像中的CNN部分,其对输入进来的图片有尺寸要求,需要可以整除2的6次方。在进行特征提取后,利用长宽压缩了两次、三次、四次、五次的特征层来进行特征金字塔结构的构造。Mask-RCNN使用Resnet101作为主干特征提取网络

2.ResNet101有两个基本的块,分别名为Conv Block和Identity Block,其中Conv Block输入和输出的维度是不一样的,所以不能连续串联,它的作用是改变网络的维度;Identity Block输入维度和输出维度相同,可以串联,用于加深网络的。
在这里插入图片描述
结构左边为卷积,右边为残差边(short cut),没有残差边维度是不会改变的,所以Conv Block是会改变维度的,而Identity Block是不会改变维度的,
在这里插入图片描述
(resnet101整体结构(7,7)是卷积大小,stride为步长

之后长宽被压缩为一半,即(512 X 512)
在这里插入图片描述

stride=(1,1)时,输出的图片大小与输入的图片大小一样。

3.有输入filter的值
identity_block有输入三个filter,分别是64 64 256功能:
作为平静结构
在这里插入图片描述

在这里插入图片描述
原本进行卷积时,通道数:
在这里插入图片描述

直接进行3x3卷积参数量比较大,利用平静结构先转1x1卷积压缩通道数,再转为3x3进行卷积之后再转回1x1卷积将通道数返回来,目的是为了减少中间网络的参数量,同时可以提高检测效果,加深网络深度
在这里插入图片描述
identity_blok:由平静结构和残差边组成
结构里只有通道数不同,resnet101很多重复的

4.长宽压缩了两次C2、三次C3、四次C4、五次C5的结果来进入特征金字塔结构进行融合,获得P2, P3 P4 P5,他们会作为RPN网络的有效特征层,

在这里插入图片描述
在这里插入图片描述

5.特征金字塔的构建:
在这里插入图片描述

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值