在Image style, aesthetics and quality estimation三类任务中往往需要依靠更多的高像素(high resolution)图片中的细纹理(fine-grained)信息。通常CNN网络的输入是256*256*3的尺寸,通常的做法是,通常的做法是将一个高像素(比如1024*768)图片随机裁剪为一个patch,用这个patch表示整幅图像,这样会丢失掉其余部分的细纹理信息。本文用一个patch集合(multi patch)来表示整个图片。基于multiple patch,文章提出了一种特征学习以及聚集(aggregation)不同patch特征的框架。具体而言,首先在一个图片上提取多个patch,然后为每个patch做特征提取,将各个patch的特征进行聚集,从而得到用于分类的特征。在这个框架上,本文提出了两种用于特征聚集的方法,分别是statistics aggregation structure和fully-connected sorting aggregation。整个框架本文用下图表示:
这里的CNN表示下面结构中从input layer到fc256.(没有softmax层)
详细的步骤如下:
1) 对图像选择patch,构成patch集;训练阶段随机每个图像随机选取5个patch,测试阶段没个图片随机选取250个patch,每5个构成一个patches集合,作为第(2&
笔记:Deep multi patch aggregation network for image style, aesthetics and quality estimation
最新推荐文章于 2024-02-21 20:49:37 发布