深度学习和计算机视觉中的backbone

最新推荐文章于 2025-04-24 10:06:47 发布

PromptOnce

最新推荐文章于 2025-04-24 10:06:47 发布

阅读量2.4k

点赞数 5

文章标签：深度学习计算机视觉人工智能

本文链接：https://blog.youkuaiyun.com/weixin_45596561/article/details/139374211

版权

在深度学习和计算机视觉中，“backbone” 是指深度神经网络的主要部分，通常用于特征提取。骨干网络通过卷积操作提取图像中的低级和高级特征，为后续的特定任务（如分类、检测、分割等）提供丰富的信息。这些骨干网络一般是预训练的，即在大型数据集（如ImageNet）上进行训练，以便在各种下游任务中实现良好的性能。以下是对深度学习和计算机视觉中骨干网络的详细解释：

1. 主要骨干网络

ResNet（残差网络）

ResNet 是一种非常流行的骨干网络，由残差块组成，这些块通过跳跃连接解决了深层网络中的梯度消失问题。ResNet 可以有不同的深度，如 ResNet-18、ResNet-50、ResNet-101 等。以下是 ResNet 的一个基本残差块：

class BasicBlock(nn.Module):
    def __init__(self, in_channels, out_channels):
        super(BasicBlock, self).__init__()
        self.conv1 = nn.Conv2d(in_channels, out_channels, kernel_size=3, padding=1)
        self.bn1 = nn.BatchNorm2d(out_channels)
        self.conv2 = nn.Conv2d(out_channels, out_channels, kernel_size=3, padding=1)
        self.bn2 = nn.BatchNorm2d(out_channels)
        self.relu = nn.ReLU(inplace=True)
        self.shortcut = nn.Sequential()

        if in_channels != out_channels:
            self.shortcut = nn.Sequential(
                nn.Conv2d(in_channels, out_channels, kernel_size=1, stride=1),
                nn.BatchNorm2d(out_channels)
            )

    def forward(self, x):
        out = self.relu(self.bn1(self.conv1(x)))
        out = self.bn2(self.conv2(out))
        out += self.shortcut(x)
        out = self.relu

最低0.47元/天解锁文章