文章目录
第一章 统计学习及监督学习概论
监督学习:从标注数据中学习模型的机器学习问题
1.1统计学习
统计学习是关于计算机基于数据构建概率统计模型并运用模型进行对数据进行预测与分析的一门学科
1.2基本分类
监督学习、无监督学习、强化学习、半监督学习与主动学习
1.3统计学习方法三要素
方法=模型+策略+算法
1.3.1 模型
学习的条件概率分布或决策函数 参数空间
1.3.2策略
选择最优的模型
1.损失函数和风险函数
用一个损失函数或代价函数来度量错误的程度风险函数。预测值f(X)与真实值Y。损失函数是f(X)和Y的非负值函数,记作L(Y, f(X))
0-1损失函数
平方损失函数
绝对损失函数
对数损失函数 L(Y, P(Y|X)) = -logP(Y|X)
损失函数越小,模型就越好
损失函数的期望,平均意义下的损失,称为风险函数或期望损失
学习的目标就是选择期望封校最小的模型
2.经验风险最小化和结构风险最小化
ERM(empirical risk minimization)
m i n f ∈ F 1 N ∑ i = 1 N L ( y i , f ( x i ) ) \underset{f\in F}{min}{\frac{1}{N}}{\sum_{i=1}^{N}}{L(y_i, f(x_i))} f∈FminN1i=1∑NL(yi,f(xi))
SRM(structural risk minimization)为了防止过拟合而提供的策略,等价与正则化
R s r m ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) R_{srm}(f) = \frac{1}{N}{\sum_{i=1}^{N}}L(y_i, f(x_i))+\lambda{J(f)} Rsrm(f)=N1i=1∑NL(yi,f(xi))+λJ(f)
J(f)是模型的复杂度,定义在假设空间F的泛函。
1.3.3 算法
算法是指学习模型的具体计算法方法
1.4 模型评估与模型选择
1.4.1训练误差与测试误差
训练误差的大小对判断给定的问题是不是一个容易学习的问题是有意义的,测试误差反映了学习方法对未知数据集的预测能力。
将学习方法对未知数据的预测能力称为泛化能力
1.4.2过拟合与模型选择
过拟合是指学习时选择的模型所包含的参数过多,以至于出现这一模型对已知数据预测很好,但对未知的数据预测得很差的现象
1.5正则化与交叉验证
1.5.1正则化
正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项或罚项
R s r m ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) R_{srm}(f) = \frac{1}{N}{\sum_{i=1}^{N}}L(y_i, f(x_i))+\lambda{J(f)} Rsrm(f)=N1i=1∑NL(yi,f(xi))+λJ(f)
L1范数
L ( w ) = 1 N ∑ i = 1 N ( f ( y i : w ) − y i ) 2 + λ ∣ w 1 ∣ L(w) = \frac{1}{N}{\sum_{i=1}^{N}}(f(y_i:w)-y_i)^2+\lambda{|w_1|} L(w)=N1i=1∑N(f(yi:w)−yi)2+λ∣w1∣
L2范数
L ( w ) = 1 N ∑ i = 1 N ( f ( y i : w ) − y i ) 2 + 1 2 λ ∣ w 2 ∣ 2 L(w) = \frac{1}{N}{\sum_{i=1}^{N}}(f(y_i:w)-y_i)^2+\frac{1}{2}\lambda{|w_2|^2} L(w)=N1i=1∑N(f(yi:w)−yi)2+21λ∣w2∣2
正则化对应于模型的先验概率,复杂的模型有较小的先验概率,简单有较大的
1.5.2交叉验证
训练集、验证集、测试集。训练集用来训练模型,验证集用于模型的选择,测试集用于模型的评估
交叉验证的思想是重复地使用数据,把给定的数据进行切分,将切分的数据集组合为训练集和测试集,在此基础上反复的训练,测试,以及模型的选择。
1.简单交叉验证
2.S折交叉验证
S-fold cross validation
将数据分为S个互不相交、大小相同的子集,利用S-1个子集数据训练模型
3.留一交叉验证
S=N
1.6泛化能力
学习方法的泛化能力是指由该方法学习到的模型对未知数据的预测能力
泛化误差就是所学的模型的期望风险
泛化误差上限
1.7生成模型和判别模型
决策函数 Y=f(X) 条件分布 P(Y|X)
监督学习方法分为生成方法和判别方法
$$
生成模型:P(Y|X)=\frac{P(X,Y)}{P(X)}
$$
1.8监督学习应用
分类问题、标注问题和回归问题
1.8.1分类问题
监督学习从数据中学习一个分类模型或分类决策函数,称为分类器。分类器对新的输入进行输出的预测,称为分类
1.8.2标注问题
标注问题分为学习和标注两个过程
评价标注模型:标注准确率、精确率和召回率
标注常见的统计学习方法:隐马尔可夫模型、条件随机场模型
1.8.3回归问题
回归问题分为回归和预测两个过程
一元回归和多元回归 线性回归和非线性回归
损失函数是平方损失函数