笔记：Deep multi patch aggregation network for image style, aesthetics and quality estimation

最新推荐文章于 2024-02-21 20:49:37 发布

泡温水澡的青蛙

最新推荐文章于 2024-02-21 20:49:37 发布

阅读量2.7k

点赞数 3

分类专栏： D-feature 文章标签： multipatch style deep cnn column

本文链接：https://blog.youkuaiyun.com/a1154761720/article/details/50700431

版权

本文介绍了一种利用多补丁（multi patch）表示高分辨率图像并进行风格、美学和质量估计的方法。通过在图像上提取多个补丁并进行特征学习和聚合，提出了统计聚合结构和完全连接排序聚合两种特征融合策略。在训练和测试阶段，使用CNN对每个补丁进行特征提取，并在聚合层进行相应的操作，最终通过全连接层输出用于分类的特征向量。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在Image style, aesthetics and quality estimation三类任务中往往需要依靠更多的高像素(high resolution)图片中的细纹理(fine-grained)信息。通常CNN网络的输入是256*256*3的尺寸，通常的做法是，通常的做法是将一个高像素(比如1024*768)图片随机裁剪为一个patch，用这个patch表示整幅图像，这样会丢失掉其余部分的细纹理信息。本文用一个patch集合（multi patch）来表示整个图片。基于multiple patch，文章提出了一种特征学习以及聚集（aggregation）不同patch特征的框架。具体而言，首先在一个图片上提取多个patch，然后为每个patch做特征提取，将各个patch的特征进行聚集，从而得到用于分类的特征。在这个框架上，本文提出了两种用于特征聚集的方法，分别是statistics aggregation structure和fully-connected sorting aggregation。整个框架本文用下图表示：
这里写图片描述
这里的CNN表示下面结构中从input layer到fc256.（没有softmax层）

详细的步骤如下：
1）对图像选择patch，构成patch集；训练阶段随机每个图像随机选取5个patch，测试阶段没个图片随机选取250个patch，每5个构成一个patches集合，作为第（2&

最低0.47元/天解锁文章