一、机器学习初步
利用经验改善系统自身性能,随着该领域的发展,目前主要研究智能数据分析
的理论和方法,并已成为智能数据分析技术的源泉之一。
1 最典型的机器学习过程
通过label
标签来进行类别标记。
对这些标签使用学习算法(learning algorithm)进行训练,拿到模型。
用新的数据(类别标记未知)输入给这个模型,模型会进行判断是好瓜坏瓜。
适用于全局的:模型
适用于局部的:模式
计算机科学:关于算法的学科
2 机器学习理论
最重要的理论模型: PAC(Probably Approximately Correct, 概率近似正确)learning model
P
(
∣
f
(
x
)
−
y
∣
≤
e
)
≥
1
−
δ
P ( | f ( x ) - y | \leq e ) \geq 1 - δ
P(∣f(x)−y∣≤e)≥1−δ
3 基本术语
基础
- 数据集:一组记录的集合
- 训练,测试
- 示例(instance),样例(example):关于一个事件或对象的描述
- 样本(sample)
- 属性(attribute),特征(feature):反映事件或对象在某方面的表现或性质的事项
- 属性值:属性上的取值
- 属性空间,样本空间:属性张成的空间即 n n n 个特征描述出的 n n n 维空间
- 输入空间:一个样本所有特征的集合
- 特征向量(feature vector):每个示例在空间中的坐标向量
- 标记空间,输出空间:所有标记的集合
- 假设(hypothesis)
- 真相(ground-truth)
- 学习器(learner)
监督学习(supervised learning)
- 分类:预测结果是离散值的学习任务
- 回归:预测结果是连续值的学习任务
- 二分类:涉及两个类别
- 多分类:涉及多个类别
- 正类,反类:“二分类”中的两个类别
无监督学习(unsupervised learning)
- 泛化( generalization):学得模型适用于新样本的能力
- 分布(distribution):通常假设样本空间中全体服从一个未知“分布”
- 独立同分布(independent and identically distributed):每个样本都是独立地从这个分布上采样获得的
4 归纳偏好
归纳偏好(inductive bias): 任何一个有效的机器学习算法必有其偏好。
一般原则:奥卡姆剃刀(Occam’s razor) 若有多个假设与观察一致,则选最简单的那个。
“没有免费的午餐”定理(No Free Lunch Theorem,NFL定理): 无论学习算法
a
a
a 多聪明、学习算法
b
b
b 多笨拙,它们的期望性能都会相同。
- NFL 定理前提:所有“问题”出现的机会相同、或所有问题同等重要
- NFL 定理最重要的寓意:空泛的谈“什么学习算法更好毫无意义”,因为若考虑所有潜在的问题,则学习算法都一样好
学习算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能!