机器学习基础与实战问答-优快云博客

以下是调整为 Markdown 格式的文本内容：

机器学习是让计算机编程从而能从数据中学习的科学（和艺术）。还有一个更通用的定义：机器学习是赋予计算机无需明确编程就能学习能力的研究领域。

监督学习任务

两种最常见的监督学习任务是分类和回归。

分类的任务是将输入数据划分到预定义的类别中。
例子：垃圾邮件过滤器，根据许多示例邮件及其类别（垃圾邮件或正常邮件）进行训练，以对新邮件进行分类。

回归的任务是预测一个连续的数值输出。
例子：根据一组特征（如里程、车龄、品牌等）预测汽车价格。

可以使用聚类算法，如 K-Means、DBSCAN 等，通过基于客户的购买行为和网站活动等对客户进行聚类。

应将垃圾邮件检测问题归类为有监督学习问题。垃圾邮件过滤器通过大量带有类别标签（垃圾邮件或正常邮件）的示例邮件进行训练，从而学习如何对新邮件进行分类，这符合有监督学习的特征。

在线学习算法可用于在无法装入一台机器主内存的巨大数据集上训练模型，这被称为 核外学习 。

算法会：

依靠相似度度量进行预测的算法与基于高斯径向基函数的支持向量机等使用相似度特征的机器学习算法有关。

这意味着模型对训练数据 过拟合 。三种可能的解决方案是：

测试集是从数据集中随机选取一部分实例组成的集合，通常占数据集的 20% （如果数据集非常大，占比会更小）。

使用测试集是为了避免 数据窥探偏差 。因为人脑是强大的模式检测系统，容易过度拟合。如果查看了测试集，可能会发现一些看似有趣的模式，从而选择特定的机器学习模型。

这样用测试集估计泛化误差时，估计值会过于乐观，导致推出的系统表现不如预期。

验证集用于在模型选择过程中评估不同模型的性能，通过在验证集上的表现来挑选出最佳模型。

训练开发集是从网络训练图片中划分出的一个集合，由吴恩达命名。当真实数据稀缺时需要它。

模型训练 ：模型在训练集上完成训练。
初步评估 ：
- 在训练开发集上进行评估。
- 若表现不佳 ：
- 说明模型过拟合了训练集。
- 应尝试以下方法：
- 简化或正则化模型。
- 获取更多训练数据。
- 清理训练数据。
- 若表现良好 ：
- 在开发集上进行评估。
- 若表现不佳 ：
- 问题可能源于数据不匹配。
- 可对网络图像进行预处理，使其更像移动应用拍摄的图片。
- 然后重新训练模型。
最终评估 ：
- 当模型在训练开发集和开发集上都表现良好时。
- 最后在测试集上评估，以了解其在实际生产中的可能表现。