机器学习基础:从木瓜品尝问题谈起
1. 问题引入
想象你刚到一个太平洋小岛,发现木瓜是当地饮食的重要组成部分,但你从未尝过木瓜,需要学习预测市场上的木瓜是否美味。基于以往对其他水果的经验,你选择木瓜的颜色(从深绿到橙、红再到深棕)和软硬度(从硬如石头到软烂)作为预测依据。通过品尝一些木瓜并记录其颜色、软硬度和美味程度,来构建预测规则。
2. 统计学习框架
2.1 学习者的输入
- 定义域集合 :用 (X) 表示,是我们希望进行标记的对象集合。例如在木瓜问题中,(X) 就是所有木瓜的集合,通常用特征向量(如木瓜的颜色和软硬度)表示定义域中的点,也称为实例,(X) 也被称为实例空间。
- 标签集合 :用 (Y) 表示,在当前讨论中限制为二元集合,通常是 ({0,1}) 或 ({-1,+1})。在木瓜例子中,(Y = {0,1}),其中 (1) 表示美味,(0) 表示不美味。
- 训练数据 :(S = ((x_1, y_1)\cdots(x_m, y_m))) 是 (X \times Y) 中的有限对序列,即标记的定义域点序列,如品尝过的木瓜及其颜色、软硬度和美味程度。这些标记的例子常被称为训练示例,(S) 也被称为训练集。
2.2 学习者的输出
学习者需要输出一个预测规则 (h : X \to Y),这个函数也被称为预测器、假设或分类器,用于预测新定义域点的标签。在木瓜例子中,就是预测未来在农贸市场检查的木瓜是否美味的规则。用 (A(S)
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



