17、迁移学习：小数据集上的模型训练解决方案-优快云博客

本文链接：https://blog.youkuaiyun.com/arduino9maker/article/details/152190649

迁移学习：小数据集上的模型训练解决方案

1. 问题提出

在非结构化数据上训练自定义机器学习模型通常需要极大的数据集，但这些数据集并非随时可得。例如，要构建一个识别手臂X光片是否有骨折的模型，为达到高精度，可能需要数十万张甚至更多的图像。在模型学会识别骨折之前，它首先要理解数据集中图像的像素、边缘和形状等信息。对于文本数据训练的模型也是如此，比如构建一个根据患者症状描述预测可能病症的模型，它不仅要学习区分感冒和肺炎的词汇，还要掌握基本的语言语义以及词语顺序如何产生意义。

为了直观感受训练高精度模型所需的数据量，我们可以看看ImageNet，它是一个拥有超过1400万张标注图像的数据库，常被用作评估各种硬件上机器学习框架的基准。不过，大多数有特定预测问题的组织并没有这么多可用数据。而且，由于上述图像和文本示例涉及特定的数据领域，通用模型无法成功识别骨折或诊断疾病。因此，我们需要一种解决方案，让我们能够仅使用可用数据和关注的标签来构建自定义模型。

2. 解决方案：迁移学习

迁移学习设计模式允许我们采用一个在相同类型数据上针对类似任务训练的模型，并将其应用于使用我们自己的自定义数据的特定任务。这里的“相同类型数据”指的是相同的数据模态，如图像、文本等。并且，最好使用在相同类型图像上预训练的模型。例如，若要进行照片分类，就使用在照片上预训练的模型；若要对卫星图像进行分类，就使用在遥感图像上预训练的模型。“类似任务”则指正在解决的问题，例如进行图像分类的迁移学习，最好从一个已经针对图像分类训练的模型开始，而不是目标检测模型。

以构建一个二元分类器来确定X光片是否有骨折为例，我们只有每种类别（骨折和未骨折）200张图像，这不足以从头开始训练一个高质量