代码详解 —— VGG Loss

VGG Loss 的基础概念

VGG Loss 是content Loss中的一种。

为了评价图像的perceptual quality,《Perceptual losses for real time style transfer and super-resolution》《GeneratingImageswithPerceptualSimilarityMetricsbasedonDeepNetworks》将content loss引入到SR中。

Content Loss利用预先训练的图像分类网络来度量图像之间的语义差异。将该网络表示为 φ φ φ,提取的第 l l l层high-level representation为 φ ( l ) ( I ) φ^{(l)}(I) φ(l)(I),Content Loss表示为两幅图像high-level representation之间的欧氏距离,如下:
L content  ( I ^ , I ; ϕ , l ) = 1 h l w l c l ∑ i , j , k ( ϕ i , j , k ( l ) ( I ^ ) − ϕ i , j , k ( l ) ( I ) ) 2 , \mathcal{L}_{\text {content }}(\hat{I}, I ; \phi, l)=\frac{1}{h_l w_l c_l} \sqrt{\sum_{i, j, k}\left(\phi_{i, j, k}^{(l)}(\hat{I})-\phi_{i, j, k}^{(l)}(I)\right)^2}, Lcontent (I^,I;ϕ,l)=hlwlcl1i,j,k(ϕi,j,k(l)(I^)ϕi,j,k(l)(I))2 ,
其中 h l h_l hl w l w_l wl c l c_l cl分别为 l l l层上表示的高度、宽度和通道数。
Content Loss 本质上是将learned knowledge of hierarchical image features从分类网络 φ φ φ转移到SR网络中。
与像素损失相比,内容损失促使输出图像 I ^ \hat I I^在感知上与目标图像 I I I相似,而不是强迫它们精确匹配像素。因此,它产生的结果在视觉上更加直观,其中VGG和ResNet是最常用的预训练CNN。

VGG 的网络结构

VGG的论文:《Very deep convolutional networks for large-scale image recognition》

VGG网络采用重复堆叠的小卷积核替代大卷积核,在保证具有相同感受野的条件下,提升了网络的深度,从而提升网络特征提取的能力。
可以把VGG网络看成是数个vgg_block的堆叠,每个vgg_block由几个卷积层+ReLU层,最后加上一层池化层组成。VGG网络名称后面的数字表示整个网络中包含参数层的数量(卷积层或全连接层,不含池化层),如图所示。

在这里插入图片描述

  • VGG16
    5个VGG块的卷积层数量分别为(2, 2, 3, 3, 3),再加上3个全连接层,总的参数层数量为16,因此命名为VGG16。
  • VGG19
    5个VGG块的卷积层数量分别为(2, 2, 4, 4, 4),再加上3个全连接层,总的参数层数量为19,因此命名为VGG19。

VGG LOSS 的代码解析


VGG19的代码实现

class VGG19(torch.nn.Module): # VGG19的网络
    def __init__(self, requires_grad=False):
        super().__init__()
        vgg_pretrained_features = torchvision.models.vgg19(pretrained=True).features
        self.slice1 = torch.nn.Sequential()
        self.slice2 = torch.nn.Sequential()
        self.slice3 = torch.nn.Sequential()
        self.slice4 = torch.nn.Sequential()
        self.slice5 = torch.nn.Sequential()
        for x in range(2):
            self.slice1.add_module(str(x), vgg_pretrained_features[x])
        for x in range(2, 7):
            self.slice2.add_module(str(x), vgg_pretrained_features[x])
        for x in range(7, 12):
            self.slice3.add_module(str(x), vgg_pretrained_features[x])
        for x in range(12, 21):
            self.slice4.add_module(str(x), vgg_pretrained_features[x])
        for x in range(21, 30):
            self.slice5.add_module(str(x), vgg_pretrained_features[x])
        if not requires_grad:
            for param in self.parameters():
                param.requires_grad = False

    def forward(self, X):
        h_relu1 = self.slice1(X)
        h_relu2 = self.slice2(h_relu1)
        h_relu3 = self.slice3(h_relu2)
        h_relu4 = self.slice4(h_relu3)
        h_relu5 = self.slice5(h_relu4)
        out = [h_relu1, h_relu2, h_relu3, h_relu4, h_relu5]
        return out

首先我们先打印出vgg_pretrained_features,对应着VGG19中的各个网络层。
在这里插入图片描述

然后分别打印出sclie1,sclie2,sclie3,sclie4, sclie5。可以看出就是把VGG网络的前30层拆分成不同的分组。
在这里插入图片描述


VGG LOSS的代码实现
上文定义的vgg的输出分别是5个sclice输出组成的列表。
假设输入分别是x和y,vgg loss 的值就是分别将x和y将5个sclice输出计算loss,一共有5个loss。然后再将这5个loss按照一定的权重加权求和得到最终的loss 。

# VGG 特征距离损失
class VGGLoss(nn.Module):
    def __init__(self):
        super(VGGLoss, self).__init__()
        self.vgg = VGG19().cuda()
        # self.criterion = nn.L1Loss()
        self.criterion = nn.L1Loss(reduction='sum') # 求和
        self.criterion2 = nn.L1Loss()# 求平均
        self.weights = [1.0 / 32, 1.0 / 16, 1.0 / 8, 1.0 / 4, 1.0] # 各个slice的输出权重

    def forward(self, x, y):
        x_vgg, y_vgg = self.vgg(x), self.vgg(y)
        loss = 0
        for i in range(len(x_vgg)):
            # print(x_vgg[i].shape, y_vgg[i].shape)
            loss += self.weights[i] * self.criterion(x_vgg[i], y_vgg[i].detach()) # 不同slice的loss的加权和
        return loss

    def forward2(self, x, y):
        x_vgg, y_vgg = self.vgg(x), self.vgg(y)
        loss = 0
        for i in range(len(x_vgg)):
            # print(x_vgg[i].shape, y_vgg[i].shape)
            loss += self.weights[i] * self.criterion2(x_vgg[i], y_vgg[i].detach())
        return loss

参考

《SR中的常见的损失函数》

### 回答1: VGG19风格迁移代码是一种用于将图像的内容与风格进行分离,并将两者合成以创建新图像的算法。该算法基于深度卷积神经网络VGG19,它是一种经典的视觉感知模型,用于图像分类和识别任务。 在实现VGG19风格迁移代码时,我们需要进行以下步骤: 1. 导入相关的Python库和模块,例如tensorflow、opencv和numpy等。 2. 加载VGG19模型的权重文件,以便使用VGG19进行图像特征提取。 3. 定义图片的内容损失函数,该函数用于衡量生成图像与原始图像之间的内容相似度。 4. 定义图片的风格损失函数,该函数用于衡量生成图像与目标风格图像之间的风格相似度。 5. 定义总体损失函数,该函数将内容损失和风格损失加权组合在一起,以平衡两者的影响。 6. 使用优化算法,如梯度下降法,来最小化总体损失函数,从而更新生成图像的像素值。 7. 重复步骤6,直到生成的图像与原始图像在内容和风格上都达到满意的程度。 需要注意的是,VGG19风格迁移代码是一种较为复杂和计算密集的算法,可能需要较长的训练时间和高性能的计算设备。因此,在实际应用中,可以使用预训练的VGG19模型,以加快风格迁移的速度。 这就是VGG19风格迁移代码的一般步骤和流程。通过这种方法,我们可以将不同图像的内容与风格进行有机地融合,从而创造出独特且具有艺术感的图像。 ### 回答2: VGG19是一种深度卷积神经网络模型,经常被用于图像分类任务。而风格迁移是一种计算机视觉的技术,它可以将一幅图像的风格迁移到另一幅图像上,从而创造出具有新风格的图像。 VGG19风格迁移代码实现的基本原理如下: 1. 导入VGG19模型的权重参数,这些参数在预训练模型中已经通过大规模训练集进行了优化,可以提取出图像中的不同特征。 2. 加载待进行风格迁移的两个图像,一个是内容图像,一个是风格图像,通过读取图像的像素值进行处理。 3. 对内容图像和风格图像分别进行预处理,将图像缩放至合适的大小,并通过减去均值来进行归一化。 4. 将内容图像和风格图像输入到VGG19网络中,分别提取出内容特征和风格特征,这些特征通过网络的不同层来表示不同等级和抽象程度的特征信息。 5. 使用内容图像的特征与风格图像的特征计算损失函数,通过最小化这个损失函数来求解风格迁移的目标图像。 6. 通过梯度下降等优化算法,对目标图像进行迭代优化,不断更新图像的像素值,使得目标图像的内容与内容图像的特征相似,同时与风格图像的特征相匹配。 7. 最后得到的目标图像即为风格迁移后的图像。 这是简单概括了VGG19风格迁移代码的运行过程。实际使用时,还需要在代码中设置合适的超参数、学习率,以及选择不同层的特征来表示风格等。这是一个复杂的计算过程,需要一定的计算资源和训练时间。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

zyw2002

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值