论文简介:
《Deep Residual Learning for Image Recognition》文章出自微软亚洲研究院何凯明团队,其分别获得ImageNet 2015 Detection, localization,Classification 任务的第一名,也分别获得 COCO 2015 Detection,Segmentation 任务的第一名。
一、Introduction 介绍
更大更深的网络模型具有更强大的representation power,由于梯度消失、梯度爆炸(vanishing/exploding gradients)等原因,深层网络比浅层网络更难进行训练。梯度消失、梯度爆炸在网络训练的起始阶段就会阻碍网络的收敛,较好的初始化策略,数据的归一化处理,Batch normalization,正则化,Dropout等技术已经可以有效的促进深度网络的高效训练。BN层的引入基本解决了plain net的梯度消失和梯度爆炸问题。
对于深层网络出现了退化现象(degradation),对于相同的数据集,更深层的网络比浅层的网络在训练集和测试集上都具有更大的误差。这不是因为过拟合问题,过拟合是训练集误差更小,测试集误差较大。
对于一个浅层网络和深层网络来说,浅层网络的解空间包含于深层网络的解空间,深层网络的解应该不差于浅层网络的解,因为只需要将增加的多余层变为恒等映射,将其他层的权重原封不动的从浅层网络的对应层复制过来。更出色的解明明存在,却找到了较差的解。其表明不是所有的网络系统(浅层、深层)都具有相近的优化难度。
有两种解决思路,一种是调整求解方法,比如更好的初

最低0.47元/天 解锁文章
3082

被折叠的 条评论
为什么被折叠?



