笔记:Deep multi patch aggregation network for image style, aesthetics and quality estimation

本文介绍了一种利用多补丁(multi patch)表示高分辨率图像并进行风格、美学和质量估计的方法。通过在图像上提取多个补丁并进行特征学习和聚合,提出了统计聚合结构和完全连接排序聚合两种特征融合策略。在训练和测试阶段,使用CNN对每个补丁进行特征提取,并在聚合层进行相应的操作,最终通过全连接层输出用于分类的特征向量。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在Image style, aesthetics and quality estimation三类任务中往往需要依靠更多的高像素(high resolution)图片中的细纹理(fine-grained)信息。通常CNN网络的输入是256*256*3的尺寸,通常的做法是,通常的做法是将一个高像素(比如1024*768)图片随机裁剪为一个patch,用这个patch表示整幅图像,这样会丢失掉其余部分的细纹理信息。本文用一个patch集合(multi patch)来表示整个图片。基于multiple patch,文章提出了一种特征学习以及聚集(aggregation)不同patch特征的框架。具体而言,首先在一个图片上提取多个patch,然后为每个patch做特征提取,将各个patch的特征进行聚集,从而得到用于分类的特征。在这个框架上,本文提出了两种用于特征聚集的方法,分别是statistics aggregation structure和fully-connected sorting aggregation。整个框架本文用下图表示:
这里写图片描述
这里的CNN表示下面结构中从input layer到fc256.(没有softmax层)
这里写图片描述
详细的步骤如下:
1) 对图像选择patch,构成patch集;训练阶段随机每个图像随机选取5个patch,测试阶段没个图片随机选取250个patch,每5个构成一个patches集合,作为第(2&

### 循环挤压-激励上下文聚合网络在单张图像去雨中的应用 #### 网络结构概述 Recurrent Squeeze-and-Excitation Context Aggregation Network (RESCAN) 是一种专门针对单张图像去雨设计的深度学习模型。该网络旨在通过递归机制有效去除图像中的雨痕,从而提高图像质量[^3]。 #### 特征提取模块 输入含雨图像后,首先利用改进版 DenseNet 提取全局特征。此版本的 DenseNet 移除了转换层(1 Conv + 1 Pooling),因此不会执行下采样操作,有助于保留更多细节信息。 #### 子网工作流程 所提取的整体特征被送入多个并行工作的子网络中。每个子网络负责估算特定尺度下的雨纹图 \( R_i \),并通过累加获得当前阶段总的雨纹图。随后,将原图与所得雨纹图做减法运算得出初步清理后的图片。上述过程会迭代多次,在每一新轮次里以前一轮处理过的影像作为输入继续优化直至最终产出完全无雨斑点的照片。 #### 关键组件分析 - **循环卷积层**:为了更好地捕捉时间序列特性以及增强记忆能力,采用了具备 ResNet 快捷链接特性的循环卷积单元。 - **Squeeze-and-Excitation (SE)**:引入 SE 结构可以自动调整通道间权重分配,使得重要区域获得更多关注资源,进而改善视觉表现力[^5]。 - **未使用 Batch Normalization**:考虑到 BN 可能破坏原有空间关联性,并且增加额外计算负担,故而在本框架内舍弃了这项技术。实验证明这样做不仅提升了性能指标还减少了约40% 的 GPU 显存占用量[^4]。 ```python import torch.nn as nn class RESCAN(nn.Module): def __init__(self, num_stages=4): super(RESCAN, self).__init__() # Define feature extraction module based on modified DenseNet without transition layers # Define recurrent sub-networks using recursive convolutional units with ResNet shortcuts # Implement squeeze-and-excitation mechanism to enhance channel-wise attention def forward(self, x): features = self.feature_extraction(x) rain_maps = [] clean_image = None for stage in range(num_stages): current_rain_map = self.sub_network(features) rain_maps.append(current_rain_map) if stage == 0: clean_image = x - sum(rain_maps) else: clean_image = clean_image - sum(rain_maps[stage:]) return clean_image ```
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值