基本术语:
1、样本:将现实中存在的事物抽象成一个一个描述,可以指代各种东西。
利用线性代数中的向量来描述样本的各个属性,并赋予属性值便于计算机计算。
2、样本空间:由于样本属性的取值利用它们的特征向量来替代,所以称样本的特征向量所在的空间为样本空间。用花式的大写X来表示。
3、数据集:样本的集合,Xij表示Xi变量在第j个特征的取值
4、模型:数据集在应用了某一种机器学习算法之后,所训练后产出的学习器,代表数据集背后的规律。
机器学习的本质就是探索数据集的潜在规律,这些信息称之为标记用花体大写的Y表示
当标记取值为离散型时,机器学习任务称之为分类。
当标记取值为连续型时,机器学习任务称之为回归。
在训练模型阶段用到标记信息的算法称之为监督学习,用不到的称之为无监督学习。
5、泛化能力:算法所训练出来的模型代表的规律面对未知数据的表现能力
数据决定了模型的上限,而算法让模型无限接近于上限。
不同机器学习算法有不同的偏好,称之为归纳偏好。
若多个假设与观察一致则选择最简单的那一个