深度学习网络篇——ZFNet（Part2 ZFNet的训练细节）

最新推荐文章于 2023-03-12 14:13:51 发布

PRIS-SCMonkey

最新推荐文章于 2023-03-12 14:13:51 发布

阅读量1.3k

点赞数 3

CC 4.0 BY-SA版权

分类专栏：深度学习Deep Learning 文章标签：深度学习 ZFNet 网络 Deep learning

本文链接：https://blog.youkuaiyun.com/weixin_43624538/article/details/84311024

上篇文章中我们介绍了ZFNet的发展历程和一些算法小心机，在这篇文章中我们将分享一下ZFNet的训练细节！Come on！！！Baby！！！

一、ZFNet训练细节

【AlexNet和ZFNet的区别】
1.AlexNet中使用2个GPU运的稀疏连接；在ZFNet中被单GPU密集连接替换；
2.将AlexNet第一层卷积核由11变成7，步长由4变为2（预告一波）；
【ZFNet的训练】
------（预处理）该模型在ImageNet 2012培训集上进行了培训（130万张图像，分布在1000多个不同的类别）。
------每个RGB图像都经过预处理，方法是将最小尺寸调整为256，裁剪图片中间的256x256区域，然后减去整张图像每个像素的颜色均值，然后用10个不同224x224窗口对原图像进行裁剪（中间区域加上四个角落，及水平翻转图像）。
------进行随机梯度下降法，对128个图片组成的块来更新参数。
------起始学习率为0.01，动量系数为0.9。当验证集误差趋近于收敛时，手动调整学习率。
------在全连接网络中使用系数为0.5的dropout（Hinton等，2012），且所有权值都初始化为0.01，偏置设为0。
------高训练集的大小。
------我们在70个迭代之后停止了训练，在单个GTX580 GPU上花了大约12天，基于（Krizhevsky等，2012）的实现。
【网络遇到的小问题】
训练期间第一层卷积核的可视化显示，其中一些核数值过大，导致一些因素占主导位置。解决办法：为了解决这个问题，我们将RMS均方根值超过固定半径0.01的卷积核重新归一化，使其均方根到为0.1。这步骤是至关重要的，特别是在模型的第一层，输入图像大致在[-128,128]范围内。
在这里插入图片描述

二、卷积网络可视化

使用刚刚讲的模型，使用反卷积网络，可视化ImageNet验证集上的特征激活，展示反向生成的刺激。

1.特征可视化
1）展示了训练结束后，我们模型的特征可视化，将模型各个隐含层提取了特征。
------显示前9个最强的激活。
2）将这些计算所得的特征，投影在像素空间显示时，可以清晰的看到：输入存在一定畸变时，网络的输出结果保持不变，即：其对输入内容具备变形的不变性。
3）显示的图patch。仅关注每个patch内的判别结构(和重构特征相比，输入图像间差异很大，而重构特征只包含那些具有判别能力的纹理结构)。
例如，在第5层第1行第2列的九张输入图片中，各不