李航《统计学习方法》读书笔记
一、理论知识
定义
统计学习是关于计算机基于数据构建 概率统计模型 并运用模型对数据进行预测与分析的一门学科,也称为统计机器学习。
- 可以用随机变量描述数据中的特征,用概率分布描述数据的统计规律。
- 现在普遍提及的机器学习,往往是指统计机器学习。统计学习由监督学习、非监督学习、半监督学习和强化学习等组成。
- 监督学习:从标注数据中学习
- 非监督学习:从无标注数据中学习
- 半监督学习:少量标注数据+大量未标注数据
- 强化学习:在智能系统与环境的连续互动中学习
特点
- 统计学习的对象是数据,是数据驱动的学科。
- 统计学习的目的是对数据进行预测与分析。
- 统计学习以方法为中心,统计学习方法构建模型并应用模型进行预测与分析。
统计学习方法三要素
方法=模型+策略+算法,构建一种统计学习方法就是确定具体的统计学习三要素。
实现统计学习方法的步骤如下:
(1)得到一个有限的训练数据集合;
(2)确定包含所有可能的模型的假设空间,即学习模型的集合;——决策函数 / 条件概率
(3)确定模型选择的准则,即学习的策略;——经验风险最小化 / 结构风险最小化
(4)实现求解最优模型的算法,即学习的算法;——数值计算方法
(5)通过学习方法选择最优模型;
(6)利用学习的最优模型对新数据进行预测或分析。
输入空间: 在监督学习中,将输入所有可能取值的集合称为输入空间。
输出空间: 在监督学习中,将输出所有可能取值的集合称为输出空间。
特征空间: 每个具体的输入是一个实例,通常由特征向量表示;所有特征向量存在的空间称为特征空间,特征空间的每一维对应于一个特征。
模型: 由输入空间到输出空间的映射。
假设空间: 映射的集合。
损失函数(代价函数): 预测错误程度的度量。
风险函数(期望损失): 模型关于联合分布的平均损失。
经验风险(经验损失): 模型关于训练样本集的平均损失。
- 损失函数度量模型一次预测的好坏
- 风险函数度量平均意义下模型预测的好坏
过拟合: 指学习时选择的模型所包含的参数过多,以至出现这一模型对已知数据预测得很好,但对未知数据预测得很差的现象。
模型选择的方法
- 正则化:在经验风险上加一个正则化项,如L1、L2L1、L2L1、L2范数。
- 正则化项一般是模型复杂度的单调递增函数
- 正则化等价于结构风险最小化
- 交叉验证:重复地使用数据;把给定的数据进行切分,将切分的数据集组合为训练集与测试集,在此基础上反复地进行训练、测试以及模型选择。
- 简单交叉验证
- S折交叉验证
- 留一交叉验证
监督学习方法分类
- 生成方法:先由数据学习联合概率分布,再求出条件概率分布作为预测的模型——生成模型
- 可以还原出联合概率分布P(X,Y)P(X,Y)P(X,Y) ,判别方法不能
- 学习收敛速度更快,即样本容量增加时,生成模型可以可以更快地收敛于真实模型
- 适用于存在隐变量的情况,判别方法不能
- 判别方法:由数据直接学习决策函数或者条件概率分布作为预测的模型
- 直接面对预测,学习的准确率更高
- 可以简化学习问题,对数据进行各种程度上的抽象、定义特征并使用特征
监督学习的应用
- 分类问题:输出变量为有限个离散变量的预测问题。
- 输出为类别
- 标注问题:输入变量与输出变量均为变量序列的预测问题。
- 输出为一个标记序列或状态序列——添加了标注的输入序列
- 回归问题:输入变量与输出变量均为连续变量的预测问题。
- 函数拟合,输出为与xxx值相对应的yyy值
二、数学表达
训练集:T={(x1,y1),(x2,y2),⋅⋅⋅,(xN,yN)}T=\left\{ (x_1,y_1), (x_2,y_2), ···, (x_N,y_N) \right\}T={(x1,y1),(x2,y2),⋅⋅⋅,(xN,yN)}
统计学习常用的损失函数:
(1)0-1损失函数
L(Y,f(X))={1,Y≠f(X)0,Y=f(X)L(Y,f(X))=\left\{
\begin{array}{rcl}
1, & Y=\not f(X) \\
0, & Y=f(X)\\
\end{array}
\right.L(Y,f(X))={1,0,Y≠f(X)Y=f(X)
(2)平方损失函数
L(Y,f(X))=(Y−f(X))2L(Y,f(X))=(Y-f(X))^2L(Y,f(X))=(Y−f(X))2
(3)绝对损失函数
L(Y,f(X))=∣Y−f(X)∣L(Y,f(X))=|Y-f(X)|L(Y,f(X))=∣Y−f(X)∣
(4)对数损失函数
L(Y,P(Y∣X))=−log P(Y∣X)L(Y,P(Y|X))=-log\ P(Y|X)L(Y,P(Y∣X))=−log P(Y∣X)
风险函数:
Rexp(f)=EP[L(Y,f(X))]=∫X×YL(y,f(x))P(x,y)dxdyR_{exp}(f)=E_P[L(Y,f(X))]=\int_{X\times Y}L(y,f(x))P(x,y)dxdyRexp(f)=EP[L(Y,f(X))]=∫X×YL(y,f(x))P(x,y)dxdy
经验风险:
Remp(f)=1N∑i=1NL(yi,f(xi))R_{emp}(f)=\frac{1}{N}\sum \limits_{i=1}^NL(y_i,f(x_i))Remp(f)=N1i=1∑NL(yi,f(xi))
结构风险:
Rsrm(f)=1N∑i=1NL(yi,f(xi))+λJ(f)R_{srm}(f)=\frac{1}{N}\sum\limits_{i=1}^NL(y_i,f(x_i))+\lambda J(f)Rsrm(f)=N1i=1∑NL(yi,f(xi))+λJ(f)