周志华-机器学习-笔记（一）-模型评估与选择(下)

最新推荐文章于 2024-08-08 09:52:55 发布

原创最新推荐文章于 2024-08-08 09:52:55 发布 · 584 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习

机器学习专栏收录该内容

8 篇文章

订阅专栏

本文探讨了通过统计假设检验来评估和比较机器学习算法性能的方法，并介绍了交叉验证t检验、Mcnemar检验等检验手段。此外，还讨论了偏差-方差分解在解析学习算法泛化性能中的应用。

比较检验

有了实验评估方法和性能度量后，我们可以对学习器的性能进行评估比较，但实际上要对学习器进行比较远比“比性能大小”复杂。统计假设检验(hypothesis test)为我们学习器性能比较提供了重要依据。

假设检验

（泛化错误率为 $\epsilon$ 的学习器在一个样本上犯错的概率是 $\epsilon$ ；测试错误率 $\hat{\epsilon}$ 意味着在 $m$ 个测试样本中恰有 $\hat{\epsilon}\times m$ 个被误分类）
假设检验中“假设”是对学习器泛化错误率分布的某种判断或猜想，例如“ $\epsilon = \epsilon_{0}$ ”。现实任务中我们并不知道学习器的泛化错误率 $\epsilon$ ，只能获知其测试错误率 $\hat{\epsilon}$ ，而两者相差很远的可能性比较小。因此，可根据测试错误率推出泛化错误率。
若泛化错误率为 $\epsilon$ 的学习器将其中 $m'$ 个样本误分类，其余样本全部分类正确的概率为 $\epsilon^{m'}(1-\epsilon){m-m'}$ ；由此估算出将有 $\hat{\epsilon}\times m$ 个样本误分类的概率，它表示在包含 $m$ 个样本的测试集上，泛化错误率为 $\epsilon$ 的学习器被测得测试错误率为 $\hat{\epsilon}$ ：

P (ϵ^; ϵ) = (m ϵ ^ \times m) ϵ ϵ^\times m (1 - ϵ) m - ϵ^\times m

$P(\hat{\epsilon};\epsilon) = (\frac{m}{\hat{\epsilon}\times m})\epsilon^{\hat{\epsilon}\times m}(1-\epsilon)^{m-\hat{\epsilon}\times m}$
给定测试错误率，则解

∂P(ϵ^;ϵ)∂ϵ=0∂P(ϵ^;ϵ)∂ϵ=0 $\frac{\partial{P(\hat{\epsilon};\epsilon)}}{\partial{\epsilon}}=0$ 可知，

P(ϵ^;ϵ)P(ϵ^;ϵ) $P(\hat{\epsilon};\epsilon)$ 在

ϵ=ϵ^ϵ=ϵ^ $\epsilon=\hat{\epsilon}$ 是最大，

|ϵ−ϵ^||ϵ−ϵ^| $|\epsilon-\hat{\epsilon}|$ 增大时

P(ϵ^;ϵ)P(ϵ^;ϵ) $P(\hat{\epsilon};\epsilon)$ 减小，符合二项(binomial)分布。

交叉验证t检验

Mcnemar检验

Friedman检验与Nemenyi后续检验

偏差与方差

“偏差-方差分解”(bias-variance decomposition)是解析学习算法泛化性能的一种重要工具。算法在同一个分布的不同训练集上学得的结果很可能不同。
对测试样本 $x$ ，令 $y_{D}$ 为 $x$ 在数据集中的标记， $y$ 为 $x$ 的的真实标记， $f(x;D)$ 为训练集 $D$ 上学得模型 $f$ 在 $x$ 上的预测输出（有可能出现噪声使得 $y_{D} \neq y$ ）
以回归任务为例，学习算法的期望预测为（E是期望值，就是随机变量的平均值）