统计学习---第一章 统计学习及监督学习概论


第一章 统计学习及监督学习概论

监督学习:从标注数据中学习模型的机器学习问题

1.1统计学习

统计学习是关于计算机基于数据构建概率统计模型并运用模型进行对数据进行预测与分析的一门学科

1.2基本分类

监督学习、无监督学习、强化学习、半监督学习与主动学习

1.3统计学习方法三要素

方法=模型+策略+算法

1.3.1 模型

学习的条件概率分布或决策函数 参数空间

1.3.2策略

选择最优的模型

1.损失函数和风险函数

用一个损失函数或代价函数来度量错误的程度风险函数。预测值f(X)与真实值Y。损失函数是f(X)和Y的非负值函数,记作L(Y, f(X))

0-1损失函数

平方损失函数

绝对损失函数

对数损失函数 L(Y, P(Y|X)) = -logP(Y|X)

损失函数越小,模型就越好

损失函数的期望,平均意义下的损失,称为风险函数或期望损失

学习的目标就是选择期望封校最小的模型

2.经验风险最小化和结构风险最小化

ERM(empirical risk minimization)

m i n f ∈ F 1 N ∑ i = 1 N L ( y i , f ( x i ) ) \underset{f\in F}{min}{\frac{1}{N}}{\sum_{i=1}^{N}}{L(y_i, f(x_i))} fFminN1i=1NL(yi,f(xi))

SRM(structural risk minimization)为了防止过拟合而提供的策略,等价与正则化

R s r m ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) R_{srm}(f) = \frac{1}{N}{\sum_{i=1}^{N}}L(y_i, f(x_i))+\lambda{J(f)} Rsrm(f)=N1i=1NL(yi,f(xi))+λJ(f)

J(f)是模型的复杂度,定义在假设空间F的泛函。

1.3.3 算法

算法是指学习模型的具体计算法方法

1.4 模型评估与模型选择

1.4.1训练误差与测试误差

训练误差的大小对判断给定的问题是不是一个容易学习的问题是有意义的,测试误差反映了学习方法对未知数据集的预测能力。

将学习方法对未知数据的预测能力称为泛化能力

1.4.2过拟合与模型选择

过拟合是指学习时选择的模型所包含的参数过多,以至于出现这一模型对已知数据预测很好,但对未知的数据预测得很差的现象

1.5正则化与交叉验证

1.5.1正则化

正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项或罚项

R s r m ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) R_{srm}(f) = \frac{1}{N}{\sum_{i=1}^{N}}L(y_i, f(x_i))+\lambda{J(f)} Rsrm(f)=N1i=1NL(yi,f(xi))+λJ(f)

L1范数

L ( w ) = 1 N ∑ i = 1 N ( f ( y i : w ) − y i ) 2 + λ ∣ w 1 ∣ L(w) = \frac{1}{N}{\sum_{i=1}^{N}}(f(y_i:w)-y_i)^2+\lambda{|w_1|} L(w)=N1i=1N(f(yi:w)yi)2+λw1

L2范数

L ( w ) = 1 N ∑ i = 1 N ( f ( y i : w ) − y i ) 2 + 1 2 λ ∣ w 2 ∣ 2 L(w) = \frac{1}{N}{\sum_{i=1}^{N}}(f(y_i:w)-y_i)^2+\frac{1}{2}\lambda{|w_2|^2} L(w)=N1i=1N(f(yi:w)yi)2+21λw22

正则化对应于模型的先验概率,复杂的模型有较小的先验概率,简单有较大的

1.5.2交叉验证

训练集、验证集、测试集。训练集用来训练模型,验证集用于模型的选择,测试集用于模型的评估

交叉验证的思想是重复地使用数据,把给定的数据进行切分,将切分的数据集组合为训练集和测试集,在此基础上反复的训练,测试,以及模型的选择。

1.简单交叉验证

2.S折交叉验证

S-fold cross validation

将数据分为S个互不相交、大小相同的子集,利用S-1个子集数据训练模型

3.留一交叉验证

S=N

1.6泛化能力

学习方法的泛化能力是指由该方法学习到的模型对未知数据的预测能力

泛化误差就是所学的模型的期望风险

泛化误差上限

1.7生成模型和判别模型

决策函数 Y=f(X) 条件分布 P(Y|X)

监督学习方法分为生成方法和判别方法

$$
生成模型:P(Y|X)=\frac{P(X,Y)}{P(X)}

$$

1.8监督学习应用

分类问题、标注问题和回归问题

1.8.1分类问题

监督学习从数据中学习一个分类模型或分类决策函数,称为分类器。分类器对新的输入进行输出的预测,称为分类

1.8.2标注问题

标注问题分为学习和标注两个过程

评价标注模型:标注准确率、精确率和召回率

标注常见的统计学习方法:隐马尔可夫模型、条件随机场模型

1.8.3回归问题

回归问题分为回归和预测两个过程

一元回归和多元回归 线性回归和非线性回归

损失函数是平方损失函数

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值