Inverting Visual Representations with Convolutional Networks论文理解
这篇论文涉及两种特征进行图像重建:
(1)传统的计算机视觉图像特征:HOG、SIFT、BLP (Shallow features)
(2)AlexNet的每层特征 (AlexNet)
Shallow features
HOG
能够重建图像的基本所有亮度信息。
当输入图像乘以10或者0.1对重建出来的图片几乎没有影响,分析可能是如下原因:
(1)分析HOG特征的分布(如果在一个cell范围内所有方向都有类似梯度,可能是噪声;如果有一个是主要梯度,那应该是图像上的)。
(2)在空间上累积梯度:如果在一个方向上有很多黑到白的梯度,很有可能在那个方向上亮度从黑到亮。
(3)使用语义信息。
SIFT
即使是稀疏的关键点,重建出来的图像看起来仍然很想自然图像,只是有一点模糊。
网络结构
每个网络结果中,在卷集成之后都有一个leaky relu激励。
HOG和LBP的反向网络有两个分流。分流A:在空间上压缩输入特征、信息在比较大的空间上进行累积,这能对图像的整个亮度信息有比较好的估计。分流B:在空间上没有进行压缩,所以能够更好的保留细节局部信息。“J”代表链接两个分流的输出,K表示核的大小,S步长。
(1)HOG特征的图像重建网络
(2)SIFT特征的图像重建网络
(3)BLP特征的图像重建网络
重建实验结果:
(1)HOG的结果最好,SIFT和LBP的结果稍差些。
(2)重建图像的颜色信息基本正确,但有时也会出错,如下图的最后一行,但是几个网络估算出的颜色通常一致的。
AlexNet
AlexNet的每层特征的重建效果、网络结构、每层特征信息分析在Inverting Convolutional Networks with Convolutional Networks 可以详细查看。
论文地址:
https://arxiv.org/pdf/1506.02753
代码:
https://lmb.informatik.uni-freiburg.de/people/dosovits/code.html