2、机器学习基础：从木瓜口味预测谈起-优快云博客

本文链接：https://blog.youkuaiyun.com/tensor9flow/article/details/152390081

机器学习基础：从木瓜口味预测谈起

1. 问题引入

想象你刚到一个太平洋小岛，发现木瓜是当地饮食的重要组成部分，但你从未尝过木瓜，需要学习预测市场上木瓜是否美味。基于以往对其他水果的经验，你决定依据木瓜的颜色（从深绿到橙、红再到深棕）和软硬度（从硬如岩石到软烂）这两个特征来进行预测。这就是一个典型的学习问题示例，接下来我们将对这类学习问题进行数学分析。

2. 统计学习框架的形式化模型

在基本的统计学习环境中，我们需要明确学习者的输入、输出、数据生成模型以及成功的衡量标准。
- 学习者的输入
- 定义域集合（Domain set） ：用 $X$ 表示，是我们希望进行标记的对象集合。例如在木瓜学习问题中，$X$ 就是所有木瓜的集合，通常定义域中的点用特征向量表示，如木瓜的颜色和软硬度。这些定义域点也被称为实例，$X$ 被称为实例空间。
- 标签集合（Label set） ：在当前讨论中，标签集合通常限制为二元集合，如 ${0, 1}$ 或 ${-1, +1}$，用 $Y$ 表示。在木瓜示例中，$Y = {0, 1}$，其中 $1$ 表示美味，$0$ 表示不美味。
- 训练数据（Training data） ：$S = ((x_1, y_1) \cdots (x_m, y_m))$ 是 $X \times Y$ 中的有限对序列，即一系列带标签的定义域点。这是学习者可以获取的输入，例如一组已品尝过并记录了颜色、软硬度和美味程度的木瓜数据。这些带标签的示例常被称为训练示例，$S$ 有时也被称为训练集