Inverting Visual Representations with Convolutional Networks论文理解

本文探讨了通过卷积网络逆向生成图像的方法,利用HOG、SIFT及AlexNet等特征,介绍不同网络结构及其对图像亮度、颜色重建的影响。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Inverting Visual Representations with Convolutional Networks论文理解


这篇论文涉及两种特征进行图像重建:

(1)传统的计算机视觉图像特征:HOG、SIFT、BLP  (Shallow features)

(2)AlexNet的每层特征  (AlexNet)


Shallow features

HOG 

能够重建图像的基本所有亮度信息。

当输入图像乘以10或者0.1对重建出来的图片几乎没有影响,分析可能是如下原因:

(1)分析HOG特征的分布(如果在一个cell范围内所有方向都有类似梯度,可能是噪声;如果有一个是主要梯度,那应该是图像上的)。

(2)在空间上累积梯度:如果在一个方向上有很多黑到白的梯度,很有可能在那个方向上亮度从黑到亮。

(3)使用语义信息。



SIFT

即使是稀疏的关键点,重建出来的图像看起来仍然很想自然图像,只是有一点模糊。


网络结构

每个网络结果中,在卷集成之后都有一个leaky relu激励。

HOG和LBP的反向网络有两个分流。分流A:在空间上压缩输入特征、信息在比较大的空间上进行累积,这能对图像的整个亮度信息有比较好的估计。分流B:在空间上没有进行压缩,所以能够更好的保留细节局部信息。“J”代表链接两个分流的输出,K表示核的大小,S步长。


(1)HOG特征的图像重建网络


(2)SIFT特征的图像重建网络


(3)BLP特征的图像重建网络



重建实验结果:

(1)HOG的结果最好,SIFT和LBP的结果稍差些。

(2)重建图像的颜色信息基本正确,但有时也会出错,如下图的最后一行,但是几个网络估算出的颜色通常一致的。



AlexNet

AlexNet的每层特征的重建效果、网络结构、每层特征信息分析在Inverting Convolutional Networks with Convolutional Networks 可以详细查看。




论文地址

https://arxiv.org/pdf/1506.02753

代码:

https://lmb.informatik.uni-freiburg.de/people/dosovits/code.html


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值