一、基本术语
1.数据集(一组记录的集合)、示例/样本/特征向量(事件或对象的描述)、属性/特征(反映事件或对象在某方面的表现或特征的事项)、样例(有标记信息的示例)
2.分类(欲预测的是离散值的学习任务)、回归(欲预测的是连续值的学习任务)、聚类(即将训练集中的记录分成若干组,每组称为一个"簇")
二分类任务(只涉及两个类别“正类”、“反类”)
3.测试(对学得模型进行预测的过程)、测试样本(被预测的样本)
4.根据训练数据是否拥有标记信息,学习任务可大致划分为两大类"监督学习"和 和"无监督学习" ,分类和回归是前者的代表,而聚类则是后者的代表
5.泛化能力(学得模型适用于新样本的能力)
二、假设空间
1.归纳(是从特殊到一般的"泛化" 过程,即从具体的事实归结出一般性规律)
演绎(从一般到特殊的"特化"过程,即从基础原理推演出具体状况)
2.学习过程(所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集"匹配"的假设,即能够将训练集中的样本判断正确的假设)
3.版本空间(与训练集一致的"假设集合")
三、归纳偏好(机器学习算法在学习过程中对某种类型假设的偏好)
1.奥卡姆剃刀 (一种常用的、自然科学研究中最基本的原则,即"若有多个假设与观察一致,则选最简单的那个")
2."没有免费的午餐"定理