1 机器学习算法分类:
监督学习(分类(输出离散),回归(输出连续));
非监督学习(聚类);
强化学习
2 No Free Lunch 定理
任意两个机器学习算法的期望性能都可能相同。(不管一个有多智能,另一个有多笨拙)
寓意:要谈论算法的相对优劣,必须要针对具体的学习问题,学习算法自身的归纳偏好与问题相匹配往往会起到决定性作用。
3 训练集和验证集的划分
留出法:
数据集 = 训练集 + 验证集
训练集 ^ 验证集 = 空
一般2/3-4/5为训练集,其余为验证集。
交叉验证法:
将数据集D分为K个互斥子集,每个子集均尽可能保持数据分布的一致性,随意取一个子集就可以作为验证集。
自举法:
4 过拟合
训练次数过多容易过拟合,就是说训练样本学的太好了,把训练集自身的一些特点也当做了所有数据共有的性质来学习。过拟合会导致模型泛化性变差,可以通过剪枝的方式来处理。
5 剪枝
剪枝分为预剪枝和后剪枝,预剪枝就是依