大数据集包括 LabelMe(由数十万张完全分割的图像组成)和 ImageNet(由 22,000 多个类别的超过 1500 万张带标签的高分辨率图像组成)
CNN就是这样一类模型,它们的容量可以通过改变深度和广度来控制,并且它们还对图像的性质(即统计的平稳性和像素依赖性的局部性)做出强有力且基本正确的假设。与具有类似大小层的标准前馈神经网络相比,CNN的连接和参数要少得多,更容易训练。
数据集
ImageNet 是一个包含超过 1500 万张带标签的高分辨率图像的数据集,属于大约 22000 个类别。由人工贴标员使用亚马逊的Mechanical Turk 众包工具进行标记。
大规模视觉识别挑战赛(ILSVRC)使用ImageNet的子集,每个类别包含大约1000个图像。总共大约有120万张训练图像、5万张验证图像和15万张测试图像。
在 ImageNet 上,通常报告两个错误率:top-1 和 top-5,其中 top-5 错误率是测试图像中正确标签不在模型认为最有可能的五个标签中的比例
ImageNet 由可变分辨率图像组成,而我们的系统需要恒定的输入维度。因此,我们将图像下采样到固定分辨率 256 ×