统计学习(statistical learning)是关于计算机基于数据构建概率统计模型并用模型对数据进行预测和分析的一门学科。透过这句话,我们可以理解为下面三句话:
1.“基于数据”:表明研究对象为数据(数字,文字,图像,视频...),数据驱动的学科;
2.“构建概率模型”:就是统计学习的方法,也是整个系列笔记的学习对象;
3.“预测分析”:即统计学习的目的,处理海量数据,数据挖掘,计算机智能化都有统计学习的用武之地;
统计学习是基于这样的一个假设:同类数据(具有某种共同性质的数据,通常作为训练数据的特征)具有一定的统计规律性。由于他们具有统计规律性,所以可以用概率统计方法来加以处理。比如,可以用随机变量描述数据中的特征,用概率分布描述数据的统计规律。
统计学习(主要介绍监督学习)方法的步骤如下:
(1)得到一个有限的训练数据集合;
(2)确定包含所有可能模型的假设空间,即学习模型的集合;
(3)确定模型选择的准则,即学习的策略;
(4)实现求解最优模型的算法,即学习的算法;
(5)通过学习方法选择最优模型;
(6)利用学习的最优模型对新数据进行预测和分析;
统计学习的三要素(模型, 策略, 算法)
模型:条件概率模型 | 决策函数
策略:损失函数(loss function),风险函数(risk function), 经验风险最小化(Empirical Risk Minimization ,ERM), 结构风险最小化(Structural Risk Minimization, SRM)
算法:求解最优模型
模型评估
训练误差(评估是否容易学习,但本质上不重要), 测试误差(评估预测能力,也称泛化能力,Generalization ability)
过拟合模型选择
当模型复杂度很高时,会产生过拟合现象(over-fitting),因此会采用结构风险最小化(SRM)评估模型(正则化)或者交叉验证的方法。
泛化能力(generalization ability)是指模型对未知数据的预测能力,是学习方法本质上重要的性质。