【DeepLabV3】Rethinking Atrous Convolution for Semantic Image Segmentation

DeepLabV3重新审视了空洞卷积在级联模块和空间金字塔池化中的应用。文章提出了连续池化和下采样对精细分割的挑战,以及多尺度目标的问题。DeepLabV3采用级联的ResNet块,结合不同率的空洞卷积,以解决这些问题。实验结果显示,在Pascal VOC 2012测试中达到85.7%的精度。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在这里插入图片描述

概述

以下主要来自其官方PPT

  • 文中提出两个语义分割的challenges
    • 1、连续池化和下采样会让后面特征的分辨率下降,这对于做精细的分割是不利的。
    • 2、多尺度目标的存在。
  • 相对于V1、V2的改变
    • V3所提出的框架可以应用到任意的网络中,应该指的是主干网络。
    • 最后的ResNet block被重用多次,被安排进行级联操作。
    • 在ASPP中加入了Batch normalization。
    • CRF没有被用到。
  • Contribution
    • 本文重新讨论了空洞卷积在cascaded modules and spatical pyramid pooling(Parallel)结构中的应用问题。
    • 讨论了一个重要的问题:对3x3的空洞卷积进行各种rate的尝试,甚至是很极端的情况(在极端的rate情况下,空洞卷积就失去了获取更多上下文信息的能力,转而就退化为1x1卷积功能)。
    • 阐述了一些训练的经验和实验细节。
  • Result
    • Pascal VOC 2012 test 85.7%

细节

Challenge

上面已经阐述过了有两个问题,以下讨论四种利用上下文信息的方法来进行语义分割:
在这里插入图片描述

  • Image pyramid:将图片缩放成不同比例,各种经过DCNN后融合输出。
  • Encoder-Decoder:利用Encoder阶段的多尺度特征,运用到Decoder阶段上恢复空间分辨率,这样做法有FCN、SegNet、Unet等网络。
  • Context module:在原始模块后增加模块,如DenseCRF,对像素间的关联进行分析。
  • Spatial pyramid pooling:使用spp在不同的范围内获取上下文信息。如,在ParseNet中就使用了Image-level feature,可以获取全局的上下文信息。DeepLabV2使用ASP
以下是彩色图像的PSNRSSIMLPIPS和CIEDE2000评价算法的Matlab源码示例: 1. PSNR(峰值信噪比): ```matlab function psnr_value = PSNR(original, distorted) [M, N, ~] = size(original); mse = sum((original(:) - distorted(:)).^2) / (M * N * 3); max_value = max(original(:)); psnr_value = 10 * log10(max_value^2 / mse); end ``` 2. SSIM(结构相似性指数): ```matlab function ssim_value = SSIM(original, distorted) K1 = 0.01; K2 = 0.03; L = 255; C1 = (K1 * L)^2; C2 = (K2 * L)^2; original = double(original); distorted = double(distorted); mean_original = filter2(fspecial('gaussian', 11, 1.5), original, 'valid'); mean_distorted = filter2(fspecial('gaussian', 11, 1.5), distorted, 'valid'); var_original = filter2(fspecial('gaussian', 11, 1.5), original.^2, 'valid') - mean_original.^2; var_distorted = filter2(fspecial('gaussian', 11, 1.5), distorted.^2, 'valid') - mean_distorted.^2; cov_original_distorted = filter2(fspecial('gaussian', 11, 1.5), original .* distorted, 'valid') - mean_original .* mean_distorted; ssim_map = ((2 * mean_original .* mean_distorted + C1) .* (2 * cov_original_distorted + C2)) ./ ((mean_original.^2 + mean_distorted.^2 + C1) .* (var_original + var_distorted + C2)); ssim_value = mean2(ssim_map); end ``` 3. LPIPS(感知相似性指标):需要下载并使用LPIPS库,源码和使用说明可在https://github.com/richzhang/PerceptualSimilarity 找到。 4. CIEDE2000(CIE 2000色差公式):需要下载并使用CIEDE2000库,源码和使用说明可在https://www.mathworks.com/matlabcentral/fileexchange/46861-color-difference-cie-de2000 找到。 以上是基本的示例代码,用于评估图像质量的不同评价指标。你可以根据实际需求和图像数据进行适当的调整和修改。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值