基本术语
- 数据集 :D={x1,x2,…,xm}D={x1,x2,…,xm},D是包含m个样本的数据集
- 示例或样本(sample)或特征向量 :xi={xi1,xi2,…,xid}xi={xi1,xi2,…,xid}, 每个样本由d个属性描述,d是样本的维数
- 属性或特征:反映事件或对象在某方面的表现或性质的事项
- 属性值:属性上的取值
- 属性空间:属性张成的空间
- 样本空间或输入空间:d维空间
- 学习或训练:执行某个学习算法从数据中学得模型
- 训练数据、训练样本、训练集
- 学习器:学习算法在给定数据和参数空间上的实例化
- 学习过程使模型对应的 “假设” 逼近数据中的 “真相”
- 预测:需要结果信息,样本结果的信息称为标记(label)
- 样例(example):(xi,yi)(xi,yi) 表示第i个样例,example使拥有label的sample
- 标记空间或输出空间:所有标记的集合
- 分类:预测离散值,二分类和多分类
- 回归:预测连续值
- 预测任务是希望通过对训练集{(x1,y1),(x2,y2),…,(xm,ym)}{(x1,y1),(x2,y2),…,(xm,ym)} 进行学习,建立一个从输入空间到输出空间的映射f。(学习或训练过程主要为了学得f)
- 测试:学习得到模型后,使用其进行预测的过程
- 测试样本:被预测的样本,测试样本x,预测结果为f(x)
因为上述学习需要标记信息,所以被称为监督学习,对应的自然有无监督学习,如聚类
聚类:将训练集中的样本分成若干组,每组称为一个“簇”(cluster),这些自动形成的簇可能对应一些潜在的概念划分
泛化:学得模型适用于新样本的能力
机器学习的目标是使学得的模型具有强泛化能力,不论在有监督学习还是无监督学习
一般来说,训练样本越多,模型效果可能越好,即具有强泛化能力