YOLOv8改进策略【Neck】| CVPR 2024 EUCB 高效的上采样卷积块:轻量级上采样 + 深度卷积增强 + 通道匹配

一、本文介绍

本文记录的是利用EUCB模块对YOLOv8的颈部网络进行改进的方法研究YOLOv8采用传统的标准3×3卷积结合上采样的方法进行特征分辨率匹配与增强,可能因计算成本过高限制模型在资源受限场景的应用,且单纯上采样易导致特征模糊,影响模型在目标检测任务中的特征融合效果。EUCB通过“上采样+3×3深度卷积+1×1点卷积”的轻量架构进行特征处理,既能大幅降低计算成本,又能通过深度卷积捕捉局部特征、保留关键语义信息,提升颈部网络特征融合效率与模型检测性能。


专栏目录:YOLOv8改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进

专栏地址:YOLOv8改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!


二、EUCB介绍

EMCAD:Efficient Multi-scale Convolutional Attention Decoding for Medical Image Segmentation

2.1 设计出发点

为解决解码器中特征分辨率匹配问题,同时降低传统上采样模块(如用标准3×3卷积)的高计算成本,以适配医疗图像分割中资源受限场景,EUCB模块应运而生,旨在平衡分辨率匹配需求与计算效率,同时保留关键特征。

2.2 结构

EUCB遵循“上采样→特征增强→通道匹配”流程,具体为:

  1. 上采样:用缩放因子2的上采样(如双线性插值)扩大特征图尺寸,初步匹配下一级跳接特征分辨率。
  2. 特征增强:依次经3×3深度卷积(DWC)提取局部特征、批量归一化(BN)加速收敛、ReLU激活引入非线性。
  3. 通道匹配:通过1×1点卷积将通道数调整为与下一级跳接特征一致。
    其数学公式为: EUCB ( x ) = C 1 × 1 ( ReLU ( BN ( DWC ( Up ( x ) ) ) ) ) \text{EUCB}(x) = C_{1×1}\left( \text{ReLU}\left( \text{BN}\left( \text
有两篇引用涉及轻量级CVPR研究成果的复现内容,分别是GhostNet架构和InvDN。 GhostNet架构是CVPR 2020的研究成果,其复现步骤涵盖多个方面,包括论文摘要的了解、Ghost Module的实现、Ghost Bottleneck的构建、GhostNet网络结构的搭建以及Tensorflow代码复现等。在代码复现中,定义GhostNet的核心部分ghost module时,先使用常规卷积操作生成部分输出特征图,再定义成本更低的depthwise操作,最后将二者融合作为输出。具体代码如下 [^2][^5]: ```python import math # 假设这里有 self.conv_bn_layer 函数的实现 def ghost_module(self, input, output, kernel_size=1, ratio=2, dw_size=3, stride=1, relu=True, name=None): init_channels = int(math.ceil(output / ratio)) new_channels = int(init_channels * (ratio - 1)) # 首先使用常规卷积操作,生成部分输出特征图 primary_conv = self.conv_bn_layer(input=input, num_filters=init_channels, filter_size=kernel_size, stride=stride, groups=1, act="relu" if relu else None, name=name + "_primary_conv") # 定义成本更低的depthwise操作 cheap_operation = self.conv_bn_layer(input=primary_conv, num_filters=new_channels, filter_size=dw_size, stride=1, groups=init_channels, act="relu" if relu else None, name=name + "_cheap_operation") # 将二者融合到一起,作为输出 out = fluid.layers.concat([primary_conv, cheap_operation], axis=1) return out ``` InvDN是基于可逆网络的真实噪声去除研究,也是轻量级的。该研究利用可逆网络把噪声图片分成低解析度干净图片和高频潜在表示,其中高频潜在表示含有噪声信息和内容信息。由于可逆网络无损,若能分离高频表示中的噪声信息,就可与低解析度干净图片重构成原分辨率的干净图片。但实际去除高频信息中的噪声困难,因此直接将带有噪声的高频潜在表示替换为在还原过程中从先验分布中采样的另一个表示,进而结合低解析度干净图片重构回原分辨率干净图片 [^4]。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Limiiiing

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值