Bag of Tricks for Image Classification with Convolutional Neural Networks阅读笔记

部署运行你感兴趣的模型镜像

Bag of Tricks for Image Classification with Convolutional Neural Networks —— 使用卷积神经网络进行图像分类的技巧包

摘要

作者说在训练神经网络时代码中往往会有一些小Trick,这些小Trick会提高模型的性能。但是每个模型、每个数据集、甚至每个人用到Trick都略有不同。而且在大多数论文中都提一下作者使用的Tricks,或者不提,在代码中才能看到,一般不会提太多细节。而这篇论文就是试验了各种Tricks,并且用不同的Tricks搭配提高了ImageNet的正确率。作者还提到,图像分类准确性的提高可以在其他应用程序领域(例如对象检测和语义分割)中带来更好的转移学习性能。

1、介绍

作者介绍了从Alex Net开始了深度学习在计算机视觉的巨大成功,又提出了后续出现的网络模型VGG, NiN, Inception, ResNet, DenseNet, 和NASNet。这些模型都提高了ImageNet的分类正确率。
作者又提出,这些进步并不仅仅来自改进的模型体系结构。培训程序的完善(包括损失函数的更改,数据预处理和优化方法)也发挥了重要作用。在过去的几年中已经提出了许多这样的改进,但是受到的关注相对较少。在文献中,大多数只是作为实现细节而简短提及,而其他一些只能在源代码中找到。
所以作者对这些Tricks进行了汇总并实验。
作者还表明,一些技巧可以显着提高准确性,将它们结合在一起可以进一步提高模型的准确性。
作者说他的Tricks运用在ResNet-50上性能超过了普通的SE-ResNeXt-50。
作者还说,它的Tricks可以扩展到其他的神经网络模型比如Inception V3和MobileNet 。并且他再次证明使用他们们的技巧训练的模型在其他应用程序领域(例如对象检测和语义分段)中带来了更好的转移学习性能。

论文大纲

首先在第2节中建立了baseline训练程序。
然后在第3节讨论了对新硬件高效训练很有用的几个Tricks。
在第4节中回顾了ResNet的三个次要模型架构调整,并提出了一个新的调整。
然后在第5节中讨论了四个额外的训练程序改进。
最后在第6节中研究这些更准确的模型是否可以帮助迁移学习。

2、训练过程

作者首先提出了一个训练模板。
在这里插入图片描述
作者说训练和验证的数据管道是不同的,所以应该写两个训练函数。
训练过程:
1、随机采样图像并将其解码为[0,255]中的32位浮点原始像素值。
2、随机裁剪长宽比以[3/4,4/3]随机采样的矩形区域,并以[3/4,4/3]随机采样 [8%, 100%]的区域,然后将裁剪区域的大小调整为224 x 224平方的图像。
3、以0.5的概率水平翻转。
4、比例色相,饱和度和亮度,其系数均由[0.6,1.4]统一得出。
5、将PCA噪声与从正态分布N(0,0.1)采样的系数相加。
6、通过分别减去123.68、116.779、103.939并除以58.393、57.12、57.375来标准化RGB通道。
验证过程:
验证期间,将每张图片的较短边缘调整为256个像素,同时保持其宽高比。接下来,裁剪中心的224 x 224区域并标准化类似于训练的RGB通道。验证期间,不会执行任何随机扩充。
模型方面:
卷积层和完全连接层的权重均使用Xavier算法[6]进行初始化。特别是,将参数设置为从[-a,a]均匀得出的随机值,a = 6 / ( d i n + d o u t ) \sqrt {6/(d_{in} + d_{out})} 6/(din+dout) 。这里 d i n d_{in} din d o u t d_{out} dout分别是输入和输出通道的大小。所有偏差都初始化为0。对于批归一化层,γ向量初始化为1,β向量初始化为0。
用Nesterov加速梯度下降优化算法(NAG)进行训练。每个模型都在8个Nvidia V100 GPU上进行了120个时期的训练,总batch大小为256。学习率初始化为0.1,并在第30、60和90个epoch除以10。

实验结果

作者评估了三个CNN:ResNet-50 ,InceptionV3 和MobileNet。对于Inception-V3,作者将输入图像的尺寸调整为299x299。使用ISLVRC2012 数据集,其中包含130万张用于训练的图像和1000个课程。验证准确性如表2所示。可以看出,ResNet-50结果略好于参考结果,而baseline的Inception-V3和MobileNet的准确度由于训练程序不同而略低。

ModelBaselineReference
Top-1Top-5Top-1Top-5
ResNet-5075.8792.7075.392.2
Inception-V377.3293.4378.894.4
MobileNet69.0388.7170.6-

3、高效训练

您可能感兴趣的与本文相关的镜像

Stable-Diffusion-3.5

Stable-Diffusion-3.5

图片生成
Stable-Diffusion

Stable Diffusion 3.5 (SD 3.5) 是由 Stability AI 推出的新一代文本到图像生成模型,相比 3.0 版本,它提升了图像质量、运行速度和硬件效率

Deep person re-identification is the task of recognizing a person across different camera views in a surveillance system. It is a challenging problem due to variations in lighting, pose, and occlusion. To address this problem, researchers have proposed various deep learning models that can learn discriminative features for person re-identification. However, achieving state-of-the-art performance often requires carefully designed training strategies and model architectures. One approach to improving the performance of deep person re-identification is to use a "bag of tricks" consisting of various techniques that have been shown to be effective in other computer vision tasks. These techniques include data augmentation, label smoothing, mixup, warm-up learning rates, and more. By combining these techniques, researchers have been able to achieve significant improvements in re-identification accuracy. In addition to using a bag of tricks, it is also important to establish a strong baseline for deep person re-identification. A strong baseline provides a foundation for future research and enables fair comparisons between different methods. A typical baseline for re-identification consists of a deep convolutional neural network (CNN) trained on a large-scale dataset such as Market-1501 or DukeMTMC-reID. The baseline should also include appropriate data preprocessing, such as resizing and normalization, and evaluation metrics, such as mean average precision (mAP) and cumulative matching characteristic (CMC) curves. Overall, combining a bag of tricks with a strong baseline can lead to significant improvements in deep person re-identification performance. This can have important practical applications in surveillance systems, where accurate person recognition is essential for ensuring public safety.
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值