监督学习范式:原理、任务与偏差 - 方差问题解析
1. 监督学习概述
监督学习就像是有一位老师监督整个学习过程。其训练数据是有标签的,标签是指为每个输入数据标记预期输出值,从而形成数据对。例如,将电子邮件标记为垃圾邮件或非垃圾邮件,将手写阿拉伯数字标记为相应的数字。
2. 工作原理
2.1 形式化描述
监督学习(SL)可以用一个五元组表示:$SL = (X, Y, S, H, L)$。其中:
- $X$ 表示输入空间;
- $Y$ 表示输出空间;
- $S$ 是有标签的训练样本集;
- $H$ 是假设集;
- $L$ 是损失函数。
训练样本集的形成过程如下:
通过输入空间 $X$ 中的概率分布 $P(x)$ 获得 $n$ 个独立同分布(i.i.d.)的观测数据 $D = {x_i | x_i \in X, i = 1, …, n}$。设监督学习的目标函数 $f: X \to Y$ 为条件概率分布 $P(y|x)$,用它为每个观测数据 $x_i \in X$ 标记相应的结果 $y_i \in Y$。基于联合概率分布 $P(x, y) = P(y|x)P(x)$,得到数据对 $(x, y)$,形成有标签的训练样本集 $S = {(x_i, y_i) | i = 1, …, n} \subseteq X \times Y$。
假设函数集 $H$ 是为监督学习的特定任务设计的监督学习算法,满足 $H: X \to Y$。
监督学习是使用有标签的训练样本集 $S$ 来训练假设函数集 $H$,得到一个预期误差最小的假设 $h \in H$,使预测
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



