个人学习笔记（一）统计学习算法概论

最新推荐文章于 2024-11-19 22:37:58 发布

原创最新推荐文章于 2024-11-19 22:37:58 发布 · 510 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #人工智能 #算法工程师

个人学习笔记专栏收录该内容

18 篇文章

订阅专栏

本文深入解析统计学习核心概念，涵盖模型、策略与算法三要素，探讨监督、非监督及强化学习，详解损失函数、风险最小化及正则化，对比生成与判别模型，阐述分类、标注与回归问题，助您掌握统计学习精髓。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这个系列的内容大部分来源于李航的《统计学习方法》，最近开始二刷这本书，我将会把重要的知识点、推导过程根据自己的理解记录在博客中，作为自己的学习笔记。在推导时，我会尽量将自己的理解书写得详细，把书中没有提到的逻辑关系理顺，希望大多数看书理解不了的推导，在我的博客里都能找到答案。对于《统计学习方法》没有涉及到的内容，例如ROC与AUC、MCMC采样、XGBoost等细碎知识点，计划之后进行补充。若有错误，欢迎指出。

1、统计学习

统计学习也叫统计机器学习，是基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。统计学习包括了监督学习(supervised learning)、非监督学习(unsupervised learning)、半监督学习(semi-supervised learning)和强化学习(reinforcement learning)等。
《统计学习方法》主要讨论的是监督学习，一般的方法如下：从训练数据出发，假设数据是独立同分布产生的；假设要学习的模型属于某个函数的集合，称为假设空间；应用某个评价准则，从假设空间中选取一个最优的模型；最优模型的选取由算法实现。因此，模型(model)、策略(strategy)和算法(algorithm)是统计学习方法的三要素。

2、监督学习

监督学习(supervised learning)的任务是学习一个模型，使模型能够对任意给定的输入，对其相应的输出做出一个好的预测。
训练集通常表示为 $T={(x1,y1),(x2,y2),⋯ ,(xN,yN)}T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\}$ 一般以 $x_i^{(j)}$ 表示第 $i$ 个输入变量的第 $j$ 个特征，即 $xi=(xi(1),xi(2),⋯ ,xi(n))Tx_i=(x_i^{(1)},x_i^{(2)},\cdots,x_i^{(n)})^T$ 监督学习假设输入与输出的随机变量 $X$ 、 $Y$ 遵循联合概率分布 $P (X, Y)$ ，训练数据与测试数据被看作是依联合概率分布 $P (X, Y)$ 独立同分布产生的。
监督学习的目的在于学习一个由输入到输出的映射，这些映射的集合就是假设空间。监督学习的模型可以是概率模型或非概率模型，由条件概率分布 $P (Y ∣ X)$ 或 $Y = f (X)$ 表示。

3、统计学习三要素

统计学习方法由三要素构成，可以简单地表示为
$方法 = 模型 + 策略 + 算法$ 模型的假设空间(hypothesis space)包含所有可能的条件概率分布或决策函数。若用 $F$ 表示假设空间，则 $F=\{f|Y=f(x)\}$ $F=\{P|P(Y|X)\}$ 有了模型的假设空间，接着需要考虑按照什么样的准则学习或选择最优模型。如果一个模型很好，那它的预测值 $f (X)$ 与真实值 $Y$ 应该十分一致，因此可以用一个损失函数(loss function)或代价函数(cost function)来度量模型预测错误的程度，记作 $L (Y, f (X))$ 。
常用的损失函数有以下几种
（1）0-1损失函数(0-1 loss function)
$L(Y,f(X))=\left\{\begin{array}{rcl}1,&{Y \neq f(X)}\\0,&{Y=f(X)}\end{array} \right.$ （2）平方损失函数(quadratic loss function)
$L(Y,f(X))=(Y-f(X))^2$ （3）绝对损失函数(absolute loss function)
$L (Y, f (X)) = ∣ Y - f (X) ∣$ （4）对数损失函数(logarithmic loss function)或对数似然损失函数(log-likelihood loss function)
$L (Y, P (Y ∣ X)) = - l o g P (Y ∣ X)$ 损失函数越小，模型就越好。上面三个损失函数评估的是真实值 $Y$ 与预测值 $f (X)$ 之间的差异；第四个对数损失函数评估的是由输入 $X$ 预测得到正确值 $Y$ 的概率大小，若概率为1，则损失函数为0，概率越小，损失函数越大。
损失函数的期望是
$Rexp(f)=EP[L(Y,f(X))]=∫x×yL(y,f(x))P(x,y)dxdyR_{exp}(f)=E_P[L(Y,f(X))]=\int_{x\times y}L(y,f(x))P(x,y)dxdy$ 这个很好理解，损失函数的期望是其关于联合概率分布 $P (X, Y)$ 的积分，也被称为风险函数(risk function)或期望损失(expected loss)。
事实上，统计学习的目的就是找到期望风险最小的模型，但联合概率分布 $P (X, Y)$ 是未知的（要不然也就不需要学习了，直接根据 $P (X, Y)$ 求出 $P (Y ∣ X)$ 就行了），所以无法直接评估一个模型的期望风险，但我们可以转而去评估经验风险(empirical risk)。
给定训练数据集 $T={(x1,y1),(x2,y2),⋯ ,(xN,yN)}T=\{(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)\}$ 模型 $f (X)$ 关于训练数据集的平均损失成为经验风险或经验损失，记作 $R_{emp}$ ：
$Remp=1N∑i=1NL(yi,f(xi))R_{emp}=\frac{1}{N} \sum_{i=1}^{N}L(y_i,f(x_i))$ 期望风险 $R_{exp}(f)$ 是模型关于联合分布的期望损失，经验风险 $R_{emp}(f)$ 是模型关于训练样本集的平均损失。根据大数定律，当样本容量 $N$ 趋于无穷时，经验风险 $R_{emp}(f)$ 趋于期望风险 $R_{exp}(f)$ 。
因此经验风险最小化(empirical risk minimization, ERM)策略认为，经验风险最小的模型是最优的模型，即
$min⁡f∈F1N∑i=1NL(yi,f(xi))\min_{f\in F} \frac{1}{N}\sum_{i=1}^NL(y_i,f(x_i))$ 因为样本容量大的时候，经验风险接近期望风险，所以经验风险最小化能保证有很好的学习效果。极大似然估计(maximum likelihood estimation)就是经验风险最小化的例子，当然其模型是条件概率分布，其损失函数是对数损失函数。
但当样本容量很小时，经验风险与期望风险的偏差较大，学习得到的模型虽然经验风险小了，但期望风险仍然很大，而我们想要的是期望风险小的模型，这就是过拟合(over-fitting)现象。
结构风险最小化(structural risk minimization, SRM)是为防止过拟合而提出来的策略，其等价于正则化(regularization)。结构风险的定义是
$Rsrm(f)=1N∑i=1NL(yi,f(xi))+λJ(f)R_{srm}(f)=\frac{1}{N}\sum_{i=1}^NL(y_i,f(x_i))+\lambda J(f)$ 即
$Rsrm(f)=Remp(f)+λJ(f)R_{srm}(f)=R_{emp}(f)+\lambda J(f)$ 其中 $J (f)$ 是模型的复杂度，模型 $f$ 越复杂， $J (f)$ 越大。根据奥卡姆剃刀，能够很好地解释已知数据并且十分简单才是最好的模型，越复杂的模型越容易过度拟合已有数据，造成泛化能力下降。
因此结构风险小的模型，其经验风险与模型复杂度都很小，往往对训练数据及未知的测试数据都有较好的预测。贝叶斯估计中的最大后验概率估计(maximum posterior probability estimation, MAP)就是结构风险最小化的例子，当然其模型是条件概率分布、损失函数是对数损失函数、模型复杂度由模型的先验概率表示。
有了模型及策略，统计学习问题归结为最优化问题，再考虑使用哪种算法。在统计学习三要素中，模型指的是所要学习的条件概率分布或决策函数，例如线性函数等；策略指的是评估模型好坏的标准，这样便能给假设空间中的模型打分，找出最优的那个；算法指的是最优化问题的具体计算方法。

4、模型评估与模型选择

略

5、正则化与交叉验证

正则化就是结构风险最小化的实现，正则化项可以取不同的形式，例如可以是参数向量的 $L_2$ 范数：
$L(w)=1N∑i=1N(f(xi;w)−yi)2+λ2∣∣w∣∣2L(w)=\frac{1}{N}\sum_{i=1}^N(f(x_i;w)-y_i)^2+\frac{\lambda}{2}||w||^2$ 这里 $∣ ∣ w ∣ ∣$ 代表参数向量的 $L_2$ 范数。正则化项也可以是参数向量的 $L_1$ 范数：
$L(w)=1N∑i=1N(f(xi;w)−yi)2+λ∣∣w∣∣1L(w)=\frac{1}{N}\sum_{i=1}^N(f(x_i;w)-y_i)^2+\lambda||w||_1$ 这里 $w||_1$ 代表参数向量的 $L_1$ 范数。
另一种常用的模型选择方法是交叉验证(cross validation)，包括三种方法。
（一）简单交叉验证
随机将数据分为两个部分，一部分作为训练集，一部分作为测试集，用训练集得到模型并在测试集上评估模型，选出测试误差最小的模型。
（二） $S$ 折交叉验证
将数据分为 $S$ 个互不相交、大小相同的子集，利用 $S - 1$ 个子集的数据训练模型，用余下的一个子集测试，将上述过程对可能的 $S$ 种选择重复进行。
（三）留一交叉验证
令 $S$ 折交叉验证中的 $S = N$ ， $N$ 是给定数据集的容量。

6、泛化能力

泛化能力(generalization ability)是指模型对未知数据的预测能力，一般通过测试误差评价泛化能力。如果学到的模型是 $f^\hat{f}$ ，那么用这个模型对未知数据预测的误差即为泛化误差(generalization error)
$Rexp(f^)=EP[L(Y,f^(X))]=∫x×yL(y,f^(x))P(x,y)dxdyR_{exp}(\hat{f})=E_P[L(Y,\hat{f}(X))]=\int_{x\times y}L(y,\hat{f}(x))P(x,y)dxdy$ 可以看到，泛化误差就是模型的期望风险。
一般通过比较两种学习方法的泛化误差上界来比较它们的优劣。泛化误差上界有以下性质：样本容量增加时，泛化上界趋于0；假设空间容量越大，模型越难学，泛化误差上界越大。
考虑二分类问题，假设空间是 $F={f1,f2,⋯ ,fd}F=\{f_1,f_2,\cdots,f_d\}$ ，设 $f$ 是从 $F$ 中选取的函数，损失函数是0-1损失函数，关于 $f$ 的期望风险和经验风险分别是
$R (f) = E [L (Y, f (X))]$ $R^(f)=1N∑i=1NL(yi,f(xi))\hat{R}(f)=\frac{1}{N}\sum_{i=1}^NL(y_i,f(x_i))$ 定理：对二分类问题，对任意一个函数 $f∈Ff\in F$ ，至少以概率 $1−δ1-\delta$ ，以下不等式成立
$R(f)≤R^(f)+ε(d,N,δ)R(f)\leq \hat{R}(f)+\varepsilon(d,N,\delta)$ 其中
$ε(d,N,δ)=12N(logd+log1δ)\varepsilon(d,N,\delta)=\sqrt{\frac{1}{2N}(logd+log\frac{1}{\delta})}$ 可以看到，经验风险越小，期望风险也越小； $ε(d,N,δ)\varepsilon(d,N,\delta)$ 是样本数量 $N$ 的单调递减函数，当 $N$ 趋于无穷时，其区域零； $ε(d,N,δ)\varepsilon(d,N,\delta)$ 也是 $logd\sqrt{logd}$ 阶的函数，即假设空间 $F$ 规模越大，其值越大。
上述定理的具体证明过程就不写了。

7、生成模型与判别模型

监督学习方法可分为生成方法(generative approach)和判别方法(discriminative approach)。
生成方法由数据先学习得到联合概率分布 $P (X, Y)$ ，再求出条件概率分布 $P (Y ∣ X)$ 作为生成模型，即
$P(Y∣X)=P(X,Y)P(X)P(Y|X)=\frac{P(X,Y)}{P(X)}$ 典型的生成模型有：朴素贝叶斯法、隐马尔科夫模型等。
判别方法由数据直接学习决策函数 $f (X)$ 或条件概率分布 $P (Y ∣ X)$ 作为判别模型，典型的判别模型有： $k$ 近邻法、感知机、决策树、逻辑回归、最大熵模型、支持向量机、提升方法和条件随机场等。
生成方法可以还原联合概率分布 $P (X, Y)$ ，而判别方法不能；生成方法学习收敛速度更快；当存在隐变量时，只能用生成方法。
判别方法直接学习 $P (Y ∣ X)$ 或 $f (X)$ ，准确率更高；可以对数据进行各种程度的抽象、定义特征、使用特征，简化学习问题。

8、分类问题

对二分类问题的常用评价指标是精准率(accuracy)与召回率(recall)。首先明确下面四个符号含义
$\left\{\begin{array}{rcl}TP,&{将正类预测为正类数(真正)}\\FN,&{将正类预测为负类数(假负)} \\FP,&{将负类预测为正类数(假正)}\\TN,&{将负类预测为负类数(真负)}\end{array} \right.$ 精准率定义为
$P=TPTP+FPP=\frac{TP}{TP+FP}$ 召回率定义为
$R=TPTP+FNR=\frac{TP}{TP+FN}$ 可以将精准率理解为查准率，将召回率理解为查全率。
此外还有 $F_1$ 值，是精准率和召回率的调和均值，即
$2F1=1P+1R\frac{2}{F_1}=\frac{1}{P}+\frac{1}{R}$