统计学习方法——第1章 统计学习方法概论

本文深入探讨了统计学习方法的核心概念,包括模型、策略和算法的三要素,以及监督、非监督、半监督和强化学习的不同类型。重点介绍了监督学习中的输入、输出和特征空间,讨论了概率模型、非概率模型、生成模型和判别模型,同时分析了统计学习的策略,如经验风险最小化和结构风险最小化。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

统计学习方法

第一章 统计学习方法概论
1.1 统计学习

对象:数据。基本假设同类数据具有一定的统计规律性

​ **统计学习方法三要素:**模型、策略、算法

​ **统计学习的组成:**监督学习、非监督学习、半监督学习、强化学习

1.2 监督学习

**输入空间:**输入的所有可能的取值的集合

**输出空间:**输出的所有可能的取值的集合

**特征空间:**每一个具体的实例由一个特征向量表示,所有特征向量的空间称为特征空间

​ 实例xxx的特征向量:x=(x(1),x(2),...,x(n))x = (x^{(1)},x^{(2)}, ..., x^{(n)})x=(x(1),x(2),...,x(n)),其中,x(i)x^{(i)}x(i)表示第iii个特征

​ 第iii个输入变量:xi=(xi(1),xi(2),...,xi(n))Tx_i = (x_i^{(1)},x_i^{(2)},...,x_i^{(n)})^Txi=(xi(1),xi(2),...,xi(n))T,通常用列向量表示

​ 训练集:T=((x1,y1),(x2,y2),...,(xn,yn))T =((x_1,y_1), (x_2,y_2),...,(x_n,y_n))T=((x1,y1),(x2,y2),...,(xn,yn))

回归问题:输入变量与输出变量均为连续变量的预测问题

分类问题:输出变量为有限个离散变量的预测问题

标注问题:输入与输出均为变量序列的预测问题

联合概率分布P(X,Y)P(X,Y)P(X,Y)是输入XXX和输出YYY的联合概率分布分布函数或分布密度函数,XXXYYY具有联合概率分布的假设是监督学习关于数据的基本假设

监督学习的模型

1、概率模型:由条件概率P(X,Y)P(X,Y)P(X,Y)确定,预测:P(y∣x)P(y|x)P(yx)

2、非概率模型:由决策函数Y=f(X)Y = f(X)Y=f(X)表示,预测:y=f(x)y = f(x)y=f(x)

3、生成模型:生成方法由数据学习的联合概率分布P(X,Y)P(X,Y)P(X,Y),然后求出条件概率P(Y∣X)P(Y|X)P(YX)作为预测的模 型。即生成模型:P(Y∣X)=P(X,Y)P(X)P(Y | X)=\frac{P(X, Y)}{P(X)}P(YX)=P(X)P(X,Y),该模型表示在给定输入XXX产生输出YYY的生成关系。典型的生成模型有: 朴素贝叶斯法和隐马尔可夫模型。

4、判别模型:由数据直接学习决策函数f(X)f(X)f(X)或者条件概率分布P(Y∣X)P(Y|X)P(YX)作为预测模型。判别模型关心的 是给定的输入XXX,应该预测什么样的输出YYY。典型的判别模型有:k近邻法,感知机,决策树,logistics回归, 最大熵模型,支持向量机,提升方法和条件随机场。

1.3 统计学习方法三要素

方法=模型+策略+算法 方法 = 模型 + 策略 + 算法 =++

​ 在监督学习中,模型就是所要学习的条件概率分布或决策函数,模型的假设空间包含所有的条件概率分 布或决策函数。假设空间用F\mathcal{F}F表示,假设空间可以定义为条件概率分布/决策函数的集合:
F={P∣P(X,Y)}  OR  F={f∣Y=f(X)} \mathcal F = \{P|P(X,Y)\} \ \ OR \ \ \mathcal F = \{f|Y = f(X) \} F={PP(X,Y)}  OR  F={fY=f(X)}
​ 其中XXXYYY表示定义在输入空间和X\mathcal{X}X输出空间Y\mathcal{Y}Y上的变量,这是F\mathcal{F}F通常是一个由参数向量决定的函数族:
F={P∣Pθ(Y∣X),θ∈Rn}   OR  F={f∣Y=fθ(X),θ∈Rn} \mathcal{F}=\left\{P\left|P_{\theta}(Y | X), \theta \in \mathbf{R}^{n}\right\}\right . \ \ \ OR \ \ \mathcal{F}=\left\{f | Y=f_{\theta}(X), \theta \in \mathbf{R}^{n}\right\} F={PPθ(YX),θRn}   OR  F={fY=fθ(X),θRn}
​ 参数向量θ\thetaθ取值与nnn维欧式空间Rn\mathbf{R}^nRn,称为参数空间

​ 在监督学习中,策略就是考虑按照什么样的准则学习或选择最优模型。

损失函数:是f(X)f(X)f(X)YYY的非负实值函数,记为L(Y,f(X))L(Y, f(X))L(Y,f(X)),度量模型一次预测的好坏

序号类型表达式
(1)0 - 1损失函数L(Y,f(X))={1,Y≠f(X)0,Y=f(X)L(Y, f(X))=\left\{\begin{array}{ll}{1,} & {Y \neq f(X)} \\ {0,} & {Y=f(X)}\end{array}\right.L(Y,f(X))={1,0,Y̸=f(X)Y=f(X)
(2)平方损失函数L(Y,f(X))=(Y−f(X))2L(Y, f(X))=(Y-f(X))^{2}L(Y,f(X))=(Yf(X))2
(3)绝对损失函数$L(Y, f(X))=
(4)对数(似然)损失函数L(Y,P(Y))=−log⁡P(Y)L(Y, P(Y)) = -\log P(Y)L(Y,P(Y))=logP(Y)

​ 输入、输出(X,Y)(X,Y)(X,Y)是随机变量,遵循联合分布P(X,Y)P(X,Y)P(X,Y),所以损失函数的期望为:
Rexp(f)=EP[L(Y,f(X))]=∫X×YL(y,f(x))P(x,y)dxdy R_{\mathrm{exp}}(f)=E_{P}[L(Y, f(X))]=\int_{\mathcal{X} \times \mathcal{Y}} L(y, f(x)) P(x, y) \mathrm{d} x d y Rexp(f)=EP[L(Y,f(X))]=X×YL(y,f(x))P(x,y)dxdy
​ 这是理论上模型f(X)f(X)f(X)关于联合分布P(X,Y)P(X,Y)P(X,Y)平均意义下的损失,称为风险函数期望损失,用于度量平 均意义下模型预测的好坏。学习的目标就是选择期望风险最小的模型

​ 由于联合分布P(X,Y)P(X,Y)P(X,Y)未知,Rexp⁡(f)R_{\exp }(f)Rexp(f)不能直接求出。事实上,如果已知P(X,Y)P(X,Y)P(X,Y)则可以间接求出条件概 率P(Y∣X)P(Y|X)P(YX),因此,也不需要学习,正是由于联合分布未知,所以才进行学习。一方面,最小化期望风险需要 用到联合分布,另一方面。联合分布又未知,所以监督学就成为一个病态问题(ill-formed problem)。

​ 给定训练数据集T{(x1,y1),(x2,y2),...,(xn,yn)}T \{(x_1,y_1), (x_2,y_2),...,(x_n,y_n)\}T{(x1,y1),(x2,y2),...,(xn,yn)},模型f(X)f(X)f(X)关于训练数据集的平均损失称为经验 风险经验损失, 记为RempR_{e m p}Remp:
Remp(f)=1N∑i=1NL(yi,f(xi)) R_{\mathrm{emp}}(f)=\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right) Remp(f)=N1i=1NL(yi,f(xi))
经验风险最小化(ERM)
min⁡f∈F1N∑i=1NL(yi,f(xi)) \min _{f \in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right) fFminN1i=1NL(yi,f(xi))
​ 其中F\mathcal{F}F是假设空间。当样本容量足够大时,经验风险最小化能保证很好的学习效果,在显示中被广泛应 用。如极大似然估计就是经验风险最小化的一个例子。当模型是条件概率分布,损失函数是对数损失函数 时,经验风险最小化等价于极大似然估计

结构风险最小化(SRM)
min⁡f∈F1N∑i=1NL(yi,f(xi))+λJ(f) \min _{f \in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)+\lambda J(f) fFminN1i=1NL(yi,f(xi))+λJ(f)
​ 结构风险最小化是为了防止过拟合而提出的策略。结构风险最小化等价于正则化。结构风险小的模型往 往对训练数据集和未知的测试数据集都具有较好的预测。如贝叶斯估计的最大后验概率估计就是结构风险最 小化的一个例子。当模型是条件概率分布,损失函数是对数损失函数,模型的复杂度模型的先验概率表示 时,结构风险最小化等价于最大化后验概率。

1.4 模型评估与模型选择

训练误差
R enp (f^)=1N∑i=1NL(yi,f^(xi)) R_{\text { enp }}(\hat{f})=\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, \hat{f}\left(x_{i}\right)\right) R enp (f^)=N1i=1NL(yi,f^(xi))
测试误差
etest=1N′∑i=1N′L(yi,f^(xi)) e_{\mathrm{test}}=\frac{1}{N^{\prime}} \sum_{i=1}^{N^{\prime}} L\left(y_{i}, \hat{f}\left(x_{i}\right)\right) etest=N1i=1NL(yi,f^(xi))
​ 当损失函数是0-1损失时,测试误差就成了常见的测试数据集的误差率:
etest=1N′∑i=1N′I(yi≠f^(xi)) e_{\mathrm{test}}=\frac{1}{N^{\prime}} \sum_{i=1}^{N^{\prime}} I\left(y_{i} \neq \hat{f}\left(x_{i}\right)\right) etest=N1i=1NI(yi̸=f^(xi))
​ 相应地,常见的测试数据集的准确率(Accuracy)为:
r test =1N′∑i=1N′I(yi=f^(xi)) r_{\text { test }}=\frac{1}{N^{\prime}} \sum_{i=1}^{N^{\prime}} I\left(y_{i}=\hat{f}\left(x_{i}\right)\right) r test =N1i=1NI(yi=f^(xi))
​ 显然:r test +e test =1r_{\text { test }}+e_{\text { test }}=1r test +e test =1

泛化误差
Rexp(f^)=EP[L(Y,f^(X))]=∫X×YL(y,f^(x))P(x,y)dxdy R_{\mathrm{exp}}(\hat f)=E_{P}[L(Y, \hat f(X))]=\int_{\mathcal{X} \times \mathcal{Y}} L(y, \hat f(x)) P(x, y) \mathrm{d} x d y Rexp(f^)=EP[L(Y,f^(X))]=X×YL(y,f^(x))P(x,y)dxdy
泛化误差上界:1)是样本容量的函数,当样本容量增加时,泛化上界趋于0;是假设空间的容量的函 数,假设空间容量越大,模型就越复杂,泛化误差上界就越大。

定理(泛化误差上界):对二分类问题,当假设空间是有限个函数的集合F={f1,f2,⋯ ,fd}\mathcal{F}=\left\{f_{1}, f_{2}, \cdots, f_{d}\right\}F={f1,f2,,fd},对任意 一个函数的集合f∈Ff \in \mathcal{F}fF,至少以概率1−δ1-\delta1δ,以下不等式成立:
R(f)⩽R^(f)+ε(d,N,δ) R(f) \leqslant \hat{R}(f)+\varepsilon(d, N, \delta) R(f)R^(f)+ε(d,N,δ)

ε(d,N,δ)=12N(log⁡d+log⁡1δ) \varepsilon(d, N, \delta)=\sqrt{\frac{1}{2 N}\left(\log d+\log \frac{1}{\delta}\right)} ε(d,N,δ)=2N1(logd+logδ1)

其中,期望风险R(f)=E[L(Y,f(X))]R(f)=E[L(Y, f(X))]R(f)=E[L(Y,f(X))],经验风险R^(f)=1N∑i=1NL(yi,f(xi))\hat{R}(f)=\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)R^(f)=N1i=1NL(yi,f(xi))

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值