PixelCNN++ 论文阅读

PIXELCNN++: IMPROVING THE PIXELCNN WITH
DISCRETIZED LOGISTIC MIXTURE LIKELIHOOD AND
OTHER MODIFICATIONS
ABSTRACT
PixelCNN是最近被提出的一类强大的生成模型,本文讨论PixelCNN的实现,代码开源在https://github.com/openai/pixel-cnn。我们的实现包含大量对原始模型简化结构的设计和提升性能的改进。(1)针对像素预测,将原始的256通道softmax回归改成离散逻辑斯蒂混合似然,加快了训练速度。(2)整像素预测取代RGB逐通道预测,简化了模型结构(3)采用下采样有效获取了多种分辨率下的结构(4)引入了短接加快优化(5)用dropout作为正则化策略。最后,论文的模型在CIFAR-10上取得了当前最好的对数似然结果,证实了这些改进的有效性。
INTRODUCTION
PixelCNN于16年被提出,是一种采用易处理似然的图像生成模型。
2 MODIFICATIONS TO PIXELCNN
2.1 DISCRETIZED LOGISTIC MIXTURE LIKELIHOOD
原来PixelCNN模型用256通道分类,输出通道多,对应于网络宽度大,参数量多,拟合能力强。但是缺点是计算存储资源消耗大,而且一个像素的一个通道(RGB)要输出256个预测,但是这256个里面只有一个label是1,其他全是0,估计是因为这个论文说它梯度稀疏。再者,他们的方式只分对错,没有显式地包含像素值之间的相关性,比如说128根127和129很接近。极端例子是训练集中从未出现过的像素值永远会被预测成0。(感觉像是说像素值是线性分布的,它们之间应该存在着关联性,但是用256个通道分类的话就相当于把它们当做独立个体了)256通道预测会导致学习慢,占显存多(学得慢是因为正样本占输出通道比例少,梯度稀疏,占显存多应该是因为输出通道数多吧)
针对这个问题,论文提出另外一种条件概率计算机制。假设有一个连续的颜色密度分布v,有了连续分布就可以生成每个像素值x的离散分布。文中v选用了混合逻辑斯蒂分布,逻辑斯蒂参数由网络输出。而离散概率分布生成方式如下:
在这里插入图片描述
注意(2)中当x=0时,用-∞取代x-0.5进行计算,相应的,当x=255时,用+∞代替x+0.5进行计算(对应了过暗和过曝两种情况)。另外,K表示模型的个数。
2.2 CONDITIONING ON WHOLE PIXELS
整像素预测代替逐通道预测,预测过程:先根据(2)预测r通道,g的均值预测基于r,b的均值预测基于r和b。
在这里插入图片描述
2.3 DOWNSAMPLING VERSUS DILATED CONVOLUTION
认为PixelCNN用的卷积核太小,感受野有限,所以考虑用扩张卷积或者下采样增大感受野。论文采用下采样是因为计算量会小很多。在下采样-上采样中引入残差连接可以达到跟扩张卷积差不多的效果。
2.4 ADDING SHORT-CUT CONNECTIONS
在这里插入图片描述
通过短接构成了一个类似Unet的结构。
2.5 REGULARIZATION USING DROPOUT
利用dropout抑制过拟合。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值