机器学习Day 02

最新推荐文章于 2022-10-03 23:34:44 发布

Charonljj

最新推荐文章于 2022-10-03 23:34:44 发布

阅读量345

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习

本文链接：https://blog.youkuaiyun.com/weixin_37972215/article/details/78955384

机器学习专栏收录该内容

3 篇文章

订阅专栏

模型评估与选择

经验误差与过拟合

通常把分类错误的样本数占样本总数的比例成为错误率（error rate），相应精度（accuracy）。把学习器的实际预测输出与样本的真实输出之间的差异成为无法（error），学习器在训练集上的误差称为训练误差（training error）或经验误差（empirical error），在新样本上的误差成为泛化误差（generalization error）。
我们希望得到泛化误差小的学习器。为了达到这个目的，应该从训练样本中尽可能学出适用于所有潜在样本的普遍规律，这样才能在遇到新样本时做出正确的判别。
过拟合（overfitting）：学习器把训练样本自身的一些特点当做了所有潜在样本都具有的一般性质，这样导致了泛化性能下降。很多原因导致了过拟合，最常见的情况是由于学习能力过强，以至于把训练样本所包含的不太一般的特性都学到了。过拟合是无法完全避免的。
欠拟合（underfitting）：对训练样本的一般性质尚未学好。由学习能力低下造成的。
在现实任务中，我们有多种学习算法可供选择，甚至对同一个学习算法，当使用不同的参数设置时，也会产生不同模型。理想的解决方案当然是对候选模型的泛化误差进行评估，然后选择泛化误差最小的那个模型。

评估方法

需要一个测试集（testing set）来测试学习器对新样本的判别能力，然后以测试集上的测试误差（testing error）作为泛化误差的近似。测试集应该尽可能与训练集互斥，即测试样本尽量不在训练集中出现，未在训练过程中使用过。
对于只有一个包含 $m$ 个样例的数据集 $D= \{(x_1,y_1),(x_2,y_2),....,(x_m,y_m)\}$ ，既要训练又要测试，需要通过对 $D$ 进行适当的处理，从中产生出训练集 $S和测试机T$ 。

留出法（hold-out）：直接将数据集 $D$ 划分为两个互斥的集合，其中一个集合作为训练集 $S$ ,另一个作为测试集 $T，即D=S\cup T,S\cap T=\varnothing$ 。
需要注意，测试集/训练集的划分要尽可能保持数据分布的一致性，避免因数据划分过程引入额外的偏差而对最终结果产生影响。
单次使用留出法得到的估计结果往往不够稳定可靠，在使用留出法得到的估计结果往往不够稳定可靠，在使用留出法时，一般要采用若干次随机划分、重复进行实验评估后取平均值作为留出法的评估结果。
测试集小时，评估结果的反差较大；训练集小时，评估结果的偏差较大。常见做法是将大约 $2/3 \sim 4/5$ 的样本用于训练，剩余样本用于测试。
交叉验证法（cross validation）：先将数据集 $D$ 划分为 $k$ 个大小相似的互斥子集，即 $D=D_1 \cup D_2 \cup D_3 \cup...\cup D_k ,D_1 \cap D_2 \cap D_3 \cap...\cap D_k=\varnothing$ 每个子集都尽可能保持数据分布的一致性。
每次用 $k-1$ 个子集作为训练集，余下的那个子集作为测试集，从而获得了 $k$ 组训练/测试集，可进行 $k$ 次训练和测试，最终返回的是这 $k$ 个测试结果的均值。
显然，交叉验证法评估结果的稳定性和保真性在很大程度上取决于 $k$ 的取值，常用5，10，20等。
留一法（Leave-One-Out）： $D中包含m个样本，令k=m$ ，每个子集包含一个样本，使得在绝大多数情况下，实际评估模型与期望评估的用 $D$ 训练出的模型很相似。因此，留一法的评估结果往往被认为比较准确。但留一法的估计结果也未必永远比其他评估方法准确（NFL定理）。
自助法（bootstrapping）：直接以自助采样法（bootstrap sampling）为基础，给定包含 $m$ 个样本的数据集 $D$ ，对它进行采样产生数据集 $D '$ ：每次随机从 $D$ 中挑选一个样本，将其拷贝放入 $D’$ 中，然后再将其放回原始数据集 $D$ 中，使得该样本在下次采样时仍可能被采到，这个过程重复执行 $m$ 次后就得到了一个包含 $m$ 个样本的数据集 $D'$ 。显然， $D$ 中有一部分样本会在 $D'$ 中多次出现，而另一部分样本不出现。做一个简单的估计，样本在 $m$ 次采样中使用不被采到的概率为 $(1-\frac{1}{m})^m$ ,取极限得到
$lim m \to \infty (1 - 1 m) m = 1 e \approx 0.368$ ${\lim_{m \to \infty}} (1-\frac{1}{m})^m =\frac{1}{e}\thickapprox 0.368$
即通过自主采样，初始数据集 $D$ 中约有36.8%的样本未出现在采样数据集 $D'$ 中。
自助法在数据集较小、难以有效划分训练/测试集时很有用；此外，自助法能从初始数据中产生多个不同的测试集，这对集成学习等方法有很大的好处。然而，自助法产生的数据集改变了初始数据集的分布，引入了估计偏差。
调参（parameter tuning）与最终模型:大多数学习算法都有参数（parameter）需要设定，参数配置不同，学得模型的性能有显著差别。学习算法的很多参数是在实数范围内取值，因此，对每种参数的配置都训练出模型来时不可行的。一般做法是对每个参数选定一个范围和步长。

性能度量

性能度量（performance measure）反映了任务需求，在对比不同模型能力时，使用不同的性能度量往往会导致不同的评判结果。
在预测任务中，给定样例集 $D=\{(x_1,y_1),(x_2,y_2),....,(x_m,y_m)\}，其中,y_i是示例x_i的真实标记$ 。要评估学习器 $f$ 的性能，就要把学习器预测结果 $f(x)与真实标记y$ 进行标记。
回归任务最常用的性能度量是均方误差（mean squared error）

E (f; D) = 1 m \sum i = 1 m (f (x i) - y i) 2

$E(f;D) = \frac{1}{m} \sum_{i=1} ^m {(f(x_i)-y_i)^2}$
更一般的，对于数据分布

D $D$ 和概率密度函

p(⋅) $p(\cdot)$ ，均方误差可描述为

E (f; D) = \int x \sim D (f (x) - y) 2 p (x) d x

$E(f;D) = \int _{x \thicksim D}(f(x)-y)^2 p(x) dx$

错误率与进度：错误率是分类错误的样本数占样本总数的比例，精度则是分类正确的样本数占样本总数的比例。
对样例集 $D$ ，分类错误率定义为

$E (f; D) = 1 m \sum i = 1 m ⨿ (f (x i) \neq y i), ⨿ (\cdot) 是指示函数，当 \cdot 为真和假时分别取值 1 ， 0$ $E(f;D) = \frac{1}{m} \sum_{i=1} ^m {\amalg (f(x_i)\neq y_i)},\amalg(\cdot)是指示函数，当\cdot为真和假时分别取值1，0$
精度定义为

$a c c (f; D) = 1 m \sum i = 1 m ⨿ (f (x i) = y i) = 1 - E (f; D)$ $acc(f;D) = \frac{1}{m} \sum_{i=1} ^m {\amalg (f(x_i)=y_i)}=1-E(f;D)$
更一般的，对于数据分布 $D$ 和概率密度函 $p(\cdot)$ ，错误率与精度可分别描述为
$E (f; D) = \int x \sim D ⨿ (f (x) \neq y) p (x) d x$ $E(f;D) = \int _{x \thicksim D} {\amalg (f(x) \neq y)}p(x)dx$
$a c c (f; D) = \int x \sim D ⨿ (f (x) = y) p (x) d x = 1 - E (f; D)$ $acc(f;D)=\int _{x \thicksim D} {\amalg (f(x) =y)}p(x)dx=1-E(f;D)$ .
2.查准率（precision）、查全率（recall）与F1：查准率P与查全率R是一对矛盾的度量。一般来说，查准率高时，查全率往往偏低；查全率高时，查准率往往偏低。
当P=R时，称为平衡点（Breaking-Even Point,BEP）。
BEP过于简化了，常用F1度量：
$F 1 = 2 \times P \times R P + R$ $F1= \frac{2 \times P \times R}{P + R}$
F1度量的一般形式 $F_\beta$
$F β = ( 1 + β 2 ) \times P \times R ( β 2 \times P ) + R ， β > 0$ $F_\beta = \frac{(1+\beta ^2) \times P \times R}{(\beta ^2 \times P)+R}，\beta>0$
$\beta度量了查全率对查准率的相对重要性，\beta>1时查全率有更大影响，\beta<1时查准率有更大影响。$
3.代价敏感错误率和代价曲线：在现实任务中常会遇到不同类型的错误所造成的后果不同。为权衡不同类型错误所造成的不同损失，可谓错误赋予非均等代价（unequal cost）。

比较检验

先使用某种实验评估方法测的学习器的某个性能度量结果，然后对这些结果进行比较。性能比较涉及几个重要因素：首先，我们希望比较的是泛化性能；第二，测试集上的性能与测试集本身的选择有很大关系；第三，很多机器学习算法本身有一定的随机性。
统计假设检验（hypothesis test）为我们进行学习器性能比较提供了重要依据。
1. 假设检验
现实任务中并不知道学习器的泛化错误率 $\epsilon$ ，只能获知其测试错误率 $\widehat{\epsilon }$ 。泛化错误率与测试错误率未必相同，但二者接近的可能性应比较大，因此可根据测试错误率估计泛化错误率的分布。
泛化错误率为 $\epsilon$ 的学习器在一个样本上犯错的概率是 $\epsilon$ ；测试错误率 $\widehat{\epsilon}$ 意味着在 $m$ 个测试样本中恰有 $\widehat{\epsilon} \times m$ 个被误分类。

P (ϵ ˆ; ϵ) = C m ϵ ˆ \times m ϵ ϵ ˆ \times m (1 - ϵ) m - ϵ ˆ \times m

$P(\widehat{\epsilon};\epsilon) = C_{\widehat{\epsilon} \times m} ^{m} \epsilon^{\widehat{\epsilon} \times m}(1-\epsilon)^{m-\widehat{\epsilon} \times m}$
概率为在包含

m $m$ 个样本的测试集上，泛化错误率为

ϵ $\epsilon$ 的学习器被测的测试错误率为

ϵˆ $\widehat{\epsilon}$ 的概率。
解

\partial P ( ϵ ˆ ; ϵ ) \partial ϵ = 0

$\frac{ \partial P(\widehat{\epsilon};\epsilon)}{ \partial \epsilon}=0$
可知，在

ϵ=ϵˆ $\epsilon = \widehat{\epsilon}$ 时最大，

|ϵ−ϵˆ $|\epsilon - \widehat{\epsilon}$ 增大

P(ϵˆ;ϵ) $P(\widehat{\epsilon};\epsilon)$ 减小，这符合二项（binomial）分布。使用二项检验（binomial test）进行检验，考虑假设

ϵ≤ϵ0 $\epsilon \leq \epsilon_0$ ,在

1−α $1-\alpha$ 的概率内所能观测到的最大错误率如下，

1−α $1-\alpha$ 反映了结论的置信度（confidence）。

ϵ ¯ = m a x ϵ s . t . \sum i = ϵ 0 \times m + 1 m C m i ϵ i (1 - ϵ) m - i < α .

$\bar{\epsilon} = max \quad \epsilon \quad\quad s.t. \quad \quad \quad \sum_{i=\epsilon_0 \times m +1} ^{m} C_{i} ^{m} \epsilon^{i}(1-\epsilon)^{m-i}<\alpha .$
s.t.:subject to的简写，使左边式子在右边条件满足时成立。
若测试错误率

ϵˆ小于临界值ϵ¯ $\widehat {\epsilon}小于临界值\bar{\epsilon}$ ,则：在

α $\alpha$ 的显著度下，假设“

ϵ≤ϵ0 $\epsilon \leq \epsilon_0$ ”不能被拒绝，即能以

1−α $1-\alpha$ 的置信度认为，学习器的泛化错误度不大于

ϵ0 $\epsilon_0$ ；否则该假设可被拒绝，即在

α的显著度下可认为学习器的泛化错误率大于ϵ0 $\alpha 的显著度下可认为学习器的泛化错误率大于\epsilon_0$ 。
通过多次重复留出法或是交叉验证法等进行多次训练/测试，得到多个测试错误率，此时使用“t检验”。假定得到

k个测试错误率，ϵ1ˆ,ϵ2ˆ,...ϵkˆ, $k个测试错误率，\widehat{\epsilon_1},\widehat{\epsilon_2},...\widehat{\epsilon_k},$ 则平均测试错误率

μ和反差σ2 $\mu和反差\sigma^2$ 为

μ = 1 k \sum i = 1 k ϵ i ˆ

$\mu=\frac{1}{k}\sum _{i=1} ^{k} {\widehat{\epsilon_i}}$ ,

σ 2 = 1 k - 1 \sum i = 1 k (ϵ i ˆ - μ) 2

$\sigma^2 = \frac{1}{k-1} \sum _{i=1} ^{k} ({\widehat{\epsilon_i}-\mu})^2$ 。
考虑到这

k个测试错误率可看作泛化错误率ϵ0的独立采样 $k个测试错误率可看作泛化错误率\epsilon_0的独立采样$ ，则变量

τ t = k \sqrt ( μ - ϵ 0 ) σ

$\tau_t = \frac{\sqrt{k}(\mu -\epsilon_0)}{\sigma}$
服从自由度为

k−1 $k-1$ 的t分布。

2.交叉验证t检验

3.McNemar检验

4.Friedman检验与 Nemenyi后续检验

偏差与方差

偏差-方差分解（bias-variance decomposition）是解释学习算法泛化性能的一种重要工具。偏差-方差分解试图对学习算法的期望泛化错误率进行拆解。
对测试样本 $x,令y_D为x在数据集中的标记，y为x的真实标记，f(x;D)为训练集D上学得模型f在x上的预测输出$ 。
学习算法的期望预测为

f ¯ (x) = E D [f (x; D)],

$\bar{f}(x)=E_D[f(x;D)],$
使用样本数相同的不同训练集产生的方差为

v a r (x) = E D [(f (x; D) - f ¯ (x)) 2],

$var(x)=E_D[(f(x;D)-\bar{f}(x))^2],$
方差度量了同样大小的训练集的变动所导致的学习性能的变化，即刻画了数据扰动所造成的影响。
噪声为

ϵ 2 = E D [(y D - y) 2] .

$\epsilon^2=E_D[(y_D-y)^2].$
噪声表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界，即刻画了学习问题本身的难度。
期望输出与真实标记的差别成为偏差（bias）

b i a s 2 = (f ¯ (x) - y) 2 .

$bias^2=(\bar f(x)-y)^2.$ 偏差度量了学习算法的期望预测与真实结果的偏离程度，即刻画了学习算法本身的拟合能力。
假定噪声期望为零，即

ED[yD−y]=0. $E_D[y_D-y]=0.$
对算法的期望泛化误差进行分解：

E (f; D) = E D [(f (x; D) - y D) 2] = . . . = b i a s 2 (x) + v a r (x) + ϵ 2

$E(f;D)=E_D[(f(x;D)-y_D)^2]=...=bias^2(x)+var(x)+\epsilon^2$ .
偏差-方差方程说明，泛化性能是由学习算法的能力、数据的充分性以及学习本任务本身的难度所共同决定的。
给定学习任务，为了取得好的泛化性能，需要使偏差较小，即能够充分拟合数据，并使反差较小，即使得数据扰动产生的影响小。