属性空间=样本空间=输入空间
:即每个属性是样本的一个维度,多属性构成属性空间
每个样本都可以在属性空间找到自己的座标,因此一个示例样本也称之为一个特征向量(feature vector)
数据集: D={x1,x2,x3.....xm} ,表示包含m个示例的数据集
xi=(xi1;xi2;xi3;......xid),表示d维样本空间(属性空间)X的一个向量。xij是xi在第j个属性上的取值。
样例:
一个样本或示例如果拥有了一个标记信息,是称之为一个样例。标记信息指的是对一个样本所做出的判断,例如这是一个苹果。
标记空间(label space )=输出空间:
(xi,yi)表示第i个样例,yi属于Y,是示例xi的标记。Y即是标记空间,是所有标记的集合
分类(classification)学习:
预测的是离散值,如好,坏;二分类有正类与反类的说法
回归(regression)学习:
预测的是连续值,如西瓜的成熟度
预测任务实际是希望通过训练集{(x1,y1),(x2,y2)......}建立从输入空间X至输出空间Y的映射f: X->Y
y=f(x)即是一次测试
聚类(clustering):把训练集中的样本分成若干组,每一个组称之为一个簇(cluster)。这些cluster按照一些潜在的概念区动,但这儿概念并非我们事先所知的。在聚类学习中,通常训练样本并没有标记信息。
监督学习(supervised learning):分类与回归
无监督学习(unsupervised learning):聚类
泛化能力(generalization):学得模型适用于新样本的能力
假设空间(hypothesis space):学习过程可以看作一个在所在假设组成的空间进行搜索的过程,目标是找到与训练集匹配的假设。假设空间即所有属性可能取值组成的空间。其中包括通配的值。
假设集合=版本空间 : 可能存在多个假设与训练集一致。
归纳偏好(inductive bias):那一个假设更好的选择
奥卡姆剃刀(Occam's razor):若存在多个假设与观察一致,则选最简单的那一个
NFL(No Free Lunch Theorem):算法为解决特定问题才有意义,否则总误差与学习算法无关。