目录
摘要
本文分析了在训练模型的过程中,“损失小”和“理想与现实模型差距小”二者之间难以同时满足的问题,。文章介绍了一种解决方案——“深度学习”,并通过与“宽度学习”的比较,说明了“深度”学习在处理这一问题上的优势。此外,针对卷积神经网络(CNN)在处理经过平移、缩放、旋转变换的图像时的识别问题,本文介绍了“spatial transformer”这一方法,来增强CNN的平移不变性。
Abstract
This article analyzes the challenge in the model training process of simultaneously achieving "small loss" and "small gap between the ideal and actual models". The article introduces a solution—"deep learning"—and illustrates the advantages of "deep" learning in addressing this issue through a comparison with "wide learning". Furthermore, in response to the recognition problems that convolutional neural networks (CNNs) face when dealing with images that have undergone translation, scaling, and rotation transformations, this paper introduces the method of "spatial transformer" to enhance the translational invariance of CNNs.
1. 关于深度学习的思考
1.1 问题提出
不好的验证集可能会导致过拟合
上图反映了选取模型的过程,在训练集中会得出几个预选模型,这几个模型运用到验证集中,选取能使验证集损失最小的模型 。
由训练集不贴合实际的概率可推出验证集不贴合实际的概率,验证集不好的概率的影响因素有两个:供选择的模型越多、模型越复杂时,概率越大,验证集数据越多,概率越小。若验证集的带选择模型较多,则有可能出现过拟合。
如上图,若供选择的模型较多,则理想上的损失会较小,但现实中的损失较大,理想与现实的差距较大;若供选择的模型较少,则理想的损失较大,理想与现实的差距较小。这里就产生了矛盾,一种理想的情况是,存在一种方法,能够在较少的模型中选择到在现实中的损失较