1.1 引言
- 机器学习的定义(由[Mitchell,1997]提出):假设用P来评估计算机程序在某任务类T上的性能,若一个程序通过利用经验E在T中任务上获得了性能改善,则我们就说关于T和P,该程序对E进行了学习。
1.2 基本术语
- 数据集( D D D):记录的集合
- 示例(instance):数据集D中的每一条记录
- 属性(attribute),特征(feature):反映事件或对象在某一方面的表现或性质的事项(西瓜的色泽,大小)
- 属性空间,样本空间,输入空间:属性张成的空间(对于某个示例,将它的属性各自作为坐标轴,则形成了属性空间。不同示例由于自身的不同属性值,对应着不同的点,因此我们把一个示例也称为“特征向量”)
- 训练:从数据中学得模型的过程
- 假设(hypothesis):即学得模型(我们意图用学得模型逼近关于数据的某种潜在的规律,故学得模型也称为假设)
- 标记(label):关于示例的结果信息(如:好瓜)
- 样例(example):拥有了标记信息的示例
- 识别学习任务的类型: