机器学习基础:从木瓜口味预测谈起
1. 问题引入
想象你刚到一个太平洋小岛,发现木瓜是当地饮食的重要组成部分,但你从未尝过木瓜,需要学习预测市场上木瓜是否美味。基于以往对其他水果的经验,你决定依据木瓜的颜色(从深绿到橙、红再到深棕)和软硬度(从硬如岩石到软烂)这两个特征来进行预测。这就是一个典型的学习问题示例,接下来我们将对这类学习问题进行数学分析。
2. 统计学习框架的形式化模型
在基本的统计学习环境中,我们需要明确学习者的输入、输出、数据生成模型以及成功的衡量标准。
- 学习者的输入
- 定义域集合(Domain set) :用 $X$ 表示,是我们希望进行标记的对象集合。例如在木瓜学习问题中,$X$ 就是所有木瓜的集合,通常定义域中的点用特征向量表示,如木瓜的颜色和软硬度。这些定义域点也被称为实例,$X$ 被称为实例空间。
- 标签集合(Label set) :在当前讨论中,标签集合通常限制为二元集合,如 ${0, 1}$ 或 ${-1, +1}$,用 $Y$ 表示。在木瓜示例中,$Y = {0, 1}$,其中 $1$ 表示美味,$0$ 表示不美味。
- 训练数据(Training data) :$S = ((x_1, y_1) \cdots (x_m, y_m))$ 是 $X \times Y$ 中的有限对序列,即一系列带标签的定义域点。这是学习者可以获取的输入,例如一组已品尝过并记录了颜色、软硬度和美味程度的木瓜数据。这些带标签的示例常被称为训练示例,$S$ 有时也被称为训练集
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



