第一章
机器学习:研究如何通过计算的手段,利用经验来改善系统自身的性能。
学习算法:在计算机上从数据中产生‘模型’的算法
基本术语:
- 数据集:记录的集合
- 示例或样本:数据集中的每条记录
- 特征或属性:反映事件或对象在某方面的表现或性质的事项
- 属性空间、样本空间:属性张成的空间
- 学习或训练:从数据中学得模型的过程
- 分类:预测的是离散值
- 回归:预测的是连续值
- 二分类任务:只涉及两个类别,一个为正类,一个为反类
- 聚类:把数据集中的数据分成若干组
- 根据训练数据是否拥有标记信息,学习分为有无监督学习。分类和回归是有监督学习,聚类是无监督学习。
- 泛化能力:学得模型适用于新样本的能力
- 归纳:从特殊到一般的"泛化" (generalization) 过程,即从具体的事实归结出一般性规律
- 演绎:从一般到特殊的"特化" (specializatio叫过程,即从基础原理推演出具体状况
假设空间:所有假设组成的空间
版本空间:一个与训练集一致的版本集合
第二章
错误率:分类错误的样本数占样本总数的比例
精度:1-错误率
训练误差:学习器在训练集上的误差
泛化误差:在新样本上的误差
过拟合:把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质
欠拟合:与过拟合相对
测试集应该尽可能和训练集互斥
从数据集中获得测试集和训练集的方法:
1.留出法:直接将数据集划分为两个互斥的集合,注意以下要点
- 分层采样——数据集的划分尽可能保持数据分布的一致性
-
要采用若干次随机划分、重复进行实验评估后取平均值作为留出法的评估结果
-
将大约2/3~4/5 样本用于训练,剩余样本用于 测试.
2.交叉验证法:
注意以下
-
为因样本划分不同 引入的差别,k 折交叉验 证通常 要随机使用不同的划分 重复p 次,最终的评估 结果是这p次k 折交 叉验结果 的均 值
-
留一法(LOO):k=m,评估结果往往被认为比较准确但计算开销大
3.自助法:
拿一个,还一个

在数据量较少时,适合自助法,而在数据量足够时,留出法和交叉验证法更常用一些。
调参:现实中常用的做法是对每个参数选定一个范围和变化步长,例如在 [0 0.2] 范围内以 0.05 为步长,则实际要评估的候选参数值有 5个,最终是从这5个候选值中产生选定值.
测试集、训练集、验证集
在研究对比不同算法的泛化性能时,我们用测试 集上的判别效果来估计模型在实际使用时的泛化能力,而把训练数据另外划分为训练集和验证集,基于验证集上的性能来进行模型选择和调参.
性能度量: 衡量模型泛化能力的评价标准
均方误差:
对于数据分布D和概率密度函数p(.)
错误率:
精度:
混淆矩阵:
查准率 :
查全率:
PR图
平衡点(BER):综合考虑查准率和查全率的性能度量
F1度量:
宏以及微查准率和查全率——对于多个二分类混淆矩阵