【深度学习笔记】5_12稠密连接网络（DenseNet）

RIKI_1

已于 2024-03-10 20:24:14 修改

阅读量1k

点赞数 26

CC 4.0 BY-SA版权

分类专栏：深度学习文章标签：深度学习笔记网络

于 2024-03-08 16:00:46 首次发布

本文链接：https://blog.youkuaiyun.com/qq_44894943/article/details/136563273

本文介绍了稠密连接网络DenseNet，其区别于ResNet在于跨层连接方式，通过在通道维上连结而非相加。主要构建模块包括密集块和过渡层，用于控制模型复杂度。实验展示了DenseNet的结构和训练过程，以及其实现细节。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

注：本文为《动手学深度学习》开源内容，部分标注了个人理解，仅为个人学习记录，无抄袭搬运意图

5.12 稠密连接网络（DenseNet）

ResNet中的跨层连接设计引申出了数个后续工作。本节我们介绍其中的一个：稠密连接网络（DenseNet） [1]。它与ResNet的主要区别如图5.10所示。

在这里插入图片描述

图5.10 ResNet（左）与DenseNet（右）在跨层连接上的主要区别：使用相加和使用连结

图5.10中将部分前后相邻的运算抽象为模块 $A$ 和模块 $B$ 。与ResNet的主要区别在于，DenseNet里模块 $B$ 的输出不是像ResNet那样和模块 $A$ 的输出相加，而是在通道维上连结。这样模块 $A$ 的输出可以直接传入模块 $B$ 后面的层。在这个设计里，模块 $A$ 直接跟模块 $B$ 后面的所有层连接在了一起。这也是它被称为“稠密连接”的原因。

DenseNet的主要构建模块是稠密块（dense block）和过渡层（transition layer）。前者定义了输入和输出是如何连结的，后者则用来控制通道数，使之不过大。

5.12.1 稠密块

DenseNet使用了ResNet改良版的“批量归一化、激活和卷积”结构，我们首先在conv_block函数里实现这个结构。

import time
import torch
from torch import nn, optim
import torch.nn.functional as F

import sys
sys.path.append("..") 
import d2lzh_pytorch as d2l
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

def conv_block(in_channels, out_channels):
    blk = nn.Sequential(nn.BatchNorm2d(in_channels), 
                        nn.ReLU(),
                        nn.Conv2d