机器学习基础:从木瓜品尝问题谈起
1. 问题引入
想象你刚到一个太平洋小岛,发现木瓜是当地饮食的重要组成部分,但你从未尝过木瓜。你需要学习预测市场上的木瓜是否美味。基于以往对其他水果的经验,你决定依据木瓜的颜色(从深绿到橙、红再到深棕)和软硬度(从硬如岩石到软烂)这两个特征来进行预测。你通过检查一些木瓜的颜色和软硬度,品尝后确定其是否美味,以此作为输入来制定预测规则。这一过程展示了学习问题中的基本考量。
2. 正式模型:统计学习框架
2.1 学习者的输入
- 定义域集合(Domain set) :用 $X$ 表示,是我们希望进行标记的对象集合。例如在木瓜学习问题中,$X$ 就是所有木瓜的集合。通常,这些定义域点会用特征向量(如木瓜的颜色和软硬度)来表示,我们也将定义域点称为实例,$X$ 称为实例空间。
- 标签集合(Label set) :在当前讨论中,我们将标签集合限制为二元集合,通常是 ${0, 1}$ 或 ${-1, +1}$,用 $Y$ 表示可能的标签集合。在木瓜示例中,$Y = {0, 1}$,其中 $1$ 表示美味,$0$ 表示不美味。
- 训练数据(Training data) :$S = ((x_1, y_1), \cdots, (x_m, y_m))$ 是 $X \times Y$ 中的有限对序列,即标记的定义域点序列。这是学习者可以获取的输入(如一组已品尝过的木瓜及其颜色、软硬度和美味程度),这样的标记示例通常称为训练示例,我们有时也将 $S$ 称为训练集。
机器学习基础与ERM原理
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



