模型评估与选择-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_44695969/article/details/99762935

模型评估与模型选择

训练误差：模型 $Y=f^(X)Y=\hat f(X)$ 关于训练集 $T$ 的平均(经验)损失

$Remp(f^)=1N∑i=1NL(yi,f^(xi))R_{emp}(\hat f)=\frac{1}{N}\sum^{N}_{i=1}L(y_{i},\hat f(x_{i}))$
测试误差：模型 $Y=f^(X)Y=\hat f(X)$ 关于测试集的平均(经验)损失

$etest=1N′∑i=1N′L(yi,f^(xi))，其中N′是测试样本容量e_{test}=\frac{1}{N^{'}}\sum^{N^{'}}_{i=1}L(y_{i},\hat f(x_{i}))，其中 N^{'} 是测试样本容量$

$当损失函数是0-1损失函数时，etest=1N′∑i=1N′I(yi≠f^(xi))；rtest=1N′∑i=1N′I(yi≠f^(xi))当损失函数是 \text{0-1} 损失函数时，e_{test}=\frac{1}{N^{'}}\sum^{N^{'}}_{i=1}I(y_{i} \neq \hat f(x_{i}))；r_{test}=\frac{1}{N^{'}}\sum^{N^{'}}_{i=1}I(y_{i} \neq \hat f(x_{i}))$

$显然，etest+rtest=1。其中rtest是准确率，I是指示函数，即y≠f^(x)时为1，否则为0。显然，e_{test}+r_{test}=1。其中r_{test}是准确率， I 是指示函数，即y\neq\hat f(x)时为1，否则为0。$
模型选择（model selection）：当假设空间的模型具有不同复杂度（例如，参数个数不同）时，就要面临模型选择的问题
过拟合（over-fitting）
- 如果一味追求提高对训练数据的预测能力，所选模型的复杂度往往会比真模型更高。
- 学习时选择的模型所包含的参数过多，以致于出现这一模型对己知数据预测得很好，但对未知数据预测得很差的现象
- 模型选择，旨在避免过拟合，并提高模型的预测能力
模型选择方法
- 正则化：结构风险最小化策略的实现
  
  $min⁡f∈FRsrm(f)=min⁡f∈F1N∑i=1NL(yi,f(xi))+λJ(f)\min_{f\in\mathcal{F}}R_{srm}(f)=\min_{f\in\mathcal{F}}\frac{1}{N}\sum^{N}_{i=1}L(y_{i},f(x_{i}))+\lambda J(f)$
  - 正则化的作用：选择经验风险与模型复杂度 $ J(f)$ 同时较小的模型
  - 正则化项 $ J(f)$ 的不同形式
    
    （1）回归问题中损失函数是平方损失，正则化项：参数向量 $w$ 的 $L_1$ 范数，即 $∥w∥1\parallel w\parallel_1$
    
    $L(w)=\frac{1}{N}\sum^{N}_{i=1}L(y_{i},f(x_{i}))+\lambda J(f)=\frac{1}{N}\sum^{N}_{i=1}(y_{i}-f(x_{i};w))^2+\lambda\parallel w \parallel_1$
    
    （2）回归问题中损失函数是平方损失，正则化项：参数向量 $w$ 的 $L_{2}$ 范数，即$\parallel w\parallel_2 $
    
    $L(w)=\frac{1}{N}\sum^{N}_{i=1}L(y_{i},f(x_{i}))+\lambda J(f)=\frac{1}{N}\sum^{N}_{i=1}(y_{i}-f(x_{i};w))^2+\frac {\lambda}{2} \parallel w\parallel_2$
  - 奥卡姆剃刀原理（Occam’s razor）
    - 正则化符合奥卡姆剃刀原理
    - 最好的模型：能够很好地解释己知数据并且十分简单才是最好的模型
    - 从贝叶斯估计的角度来看，正则化项对应于模型的先验概率。可以假设复杂的模型有较大的先验概率，简单的模型有较小的先验概率
- 交叉验证
  - 基本思想：重复地使用数据
  - 简单交叉验证
  - $S$ 折交叉验证
  - 留一交叉验证（ $S$ 折交叉验证的特例， $S = N, N 为数据集的容量$ ）

泛化能力

泛化能力（generalization ability）：机器学习方法学习到的模型，对未知数据的预测能力。
泛化误差（generalization error）：反映了机器学习方法的泛化能力。
- 泛化误差，即学习到的模型 $f^\hat f$ 的风险函数（损失函数的期望）：
  
  $Rexp(f^)=EP[L(Y,f^(X))]=∫X×YL(y,f^(x))P(x,y)dxdyR_{exp}(\hat f)=E_{P}[L(Y,\hat f(X))]=\int_{\mathcal{X}\times\mathcal{Y}}L(y,\hat f(x))P(x,y)dxdy$
泛化误差上界
- 作用：通过比较两种学习方法的泛化误差上界的大小，来比较方法的优劣。
- 泛化误差上界是样本容量的函数。当样本容量增加时，泛化上界趋于0。
- 泛化误差上界是假设空间容量的函数。假设空间容量越大，模型就越难学，泛化误差上界就越大。
- 定理（泛化误差上界）：对二类分类问题，当假设空间是有限个函数的集合 $F={f1,f2,...fd}\mathcal{F}=\{f_1,f_2,...f_d\}$ 时，对任意个函数 $f∈Ff\in \mathcal{F}$ ，至少以概率 $1−δ1-\delta$ ，使得以下不等式
  成立：
  
  $R(f)≤R^(f)+ε(d,N,δ)，其中，ε(d,N,δ)=12N(log⁡d+log⁡1δ)R(f)\leq \hat R(f)+\varepsilon(d,N,\delta)，其中，\varepsilon(d,N,\delta)=\sqrt{\frac{1}{2N}(\log d+\log \frac{1}{\delta})}$
  - 不等式左侧：泛化误差 $R (f)$ ；
  - 不等式右侧：训练误差 $R^(f)\hat R(f)$ ，训练误差越小，泛化误差也越；
    
    $ε(d,N,δ)\varepsilon(d,N,\delta)$ 是 $N$ 的单调递减函数，当 $N$ 趋于无穷时， $ε(d,N,δ)\varepsilon(d,N,\delta)$ 趋于0。同时它也是 $log⁡d\sqrt{\log d}$ 阶的函数，假设空间 $F\mathcal{F}$ 包含的函数越多， $ε(d,N,δ)\varepsilon(d,N,\delta)$ 值越大。