周志华机器学习西瓜书第二章模型评估与选择学习笔记

本文链接：https://blog.youkuaiyun.com/qq_56950091/article/details/145212679

创建了一个微信交流群，想加入的朋友+WeChat:SODAS_MUSIC_STUDIO

1、经验误差与过拟合

①误差

错误率：分类错误样本数占总样本数的比例，即在m个样本中有a个错误样本，则错误率为 $E=\frac{a}{m}$ ;
精度：就是1-错误率，即1-E；
误差：实际预测输出与样本实际输出之间的差异；
训练误差(又称，经验误差)：就是在训练集上的误差；
测试误差：就是在测试集上计算得到的误差；反映了模型对于未见过的数据的预测能力。由于测试数据集是有限的，测试误差无法完全代表模型的性能。

PS1-1：作为泛化误差的近似

泛化误差：指模型在所有可能数据上的平均误差，即模型在无穷大数据集上的误差近似。衡量了模型对未知数据的预测能力分析，泛化误差就是想要获得一个泛化误差尽量小的学习器。

PS1-2：泛化误差是一个理想化的概念，因为它考虑了所有可能的数据。

②拟合

说的就是某个曲线能否合适的描述某些样本，并且具有较强的泛化能力。
过拟合：就是训练样本学的太好了，将训练样本本身的特点当作了一般性质(不考虑数据噪声)，使泛化性能变低。

PS1-3：就是模型过于复杂，导致训练误差低，测试误差高

欠拟合：就是对训练样本的学习不足，没有找到其一般规律，甚至没有找到任何规律。欠拟合易于克服，但是过拟合的处理比较困难。

PS1-4：就是模型简单，训练误差和测试误差都高

如何解决过拟合和欠拟合问题

过拟合	欠拟合
增加训练样本数量	增加新特性
正则化L1、L2	增加模型复杂度
降维	减少正则化系数
集成学习方法	决策树采用拓展分支
减少模型复杂度	神经网络采用增加训练轮数
丢弃法Dropout

2、评估方法

现实任务中往往会对学习器的泛化性能、时间开销、存储开销、可解释性等方面的因素进行评估并做出选择；我们假设测试集是从样本真实分布中独立采样获得，将测试集上的“测试误差”作为泛化误差的近似，所以测试集要和训练集中的样本尽量互斥。

①留出法

将训练集D划分为互斥的集合，D = S ∪ T ，S ∩ T = ∅；

PS2-1：S为训练集，T为测试集

训练/测试集划分尽可能保持数据分布的一致性。所以，若是数据集为顺序的，则应该随机打乱以后，再进行S和T的分割。
单次使用留出法得到的估计结果不够稳定可靠，在使用留出法时，一般要采用若干次随机划分、重复进行实验评估后取平均值作为留出法的评估结果。

PS2-2：测试样本和训练样本按照3:7的比例，在测试样本中有30%的样本被错误分类，则精度为1~30%

②交叉验证法（广泛使用）

将数据集D划分为K个大小相似的互斥子集，即 $D=D_1\bigcup D_2\bigcup ...\bigcup D_k$ ， $D_i\bigcap D_j=\emptyset\left ( i\neq j \right )$ ，每个子集Di都尽可能保持数据分布的一致性，即从D中通过分层采样得到。每次k-1个子集作为训练集，余下的作为测试集，最终返回k次训练的均值。

”k折交叉验证(别称，k倍交叉验证)“：最常用的就是10折交叉验证，为了减少因为样本划分不同而引入的差别，k折交叉验证通常随机使用不同的划分重复p次，最终返回p次k折交叉验证的均值，常用”10次10折交叉验证“。

留一法：是对k折交叉验证法的一个特例，假设有m个样本，若令m=k，这就是留一法，即每一个子集都只有一个样本。留一法不受随机样本划分方式的影响。当数据集比较大的时候，不适合使用留一法。这也是NFL定理的体现。

③自助法

因为希望评估的是用D训练的模型，使用留出法和交叉验证法，都保留一部分样本用于测试，这样就让实际评估的模型所使用的训练集比D小，这样必然会引入因训练样本规模不同而产生的估计偏差。自助法是一个比较高效的实验估计方法。但是用的比较少

以自助采样法为基础，对数据集D有放回采样m次得到训练集 $D_1$ , $D-D_1$ 用做测试集。

PS2-3：有的地方写 $D/D_1$ ,其中" / "为集合减法。

每个样本被采样的概率为 $\frac{1}{m}$ ,不被采样到的概率为 $\frac{m-1}{m}$ ,m次都不被采样到的概率是：

从此数据可以看出，对于样本中大概有36.8%数据在整个采样过程中是一次都没有被采样到的，剩下的63.2%的数据是至少被采样到一次，即代表的是会被放到数据集 $D_1$ 中去。这样虽然解决了数据样本规模的问题，但是 $D_1$ 的样本分布与D的样本分布是不一样的。这样如此会引起新的偏差。这也是其缺点。在数据量足够时，留出法和交叉验证法更为常用。

③调参与最终模型

调参：就是对算法参数调整设定。其中参数不同，性能会有差别，很多的参数都是实数域，所以无法尝试所有的参数，通常选择范围步长，如：[0，0.2]范围以0.05为步长，实际上评估的参数就是5个：0、0.05、0.1、0.15、0.2；
当模型选择完，学习算法和参数配置已经选定，此时应该用数据集D重新训练模型，这个模型在训练过程中使用了所有m个样本，这个就是最后提交的模型

3、性能度量

性能度量：是衡量模型泛化能力的评价标准，反应了任务需求；使用不同的性能度量往往会导致不同的评判结果。

回归任务常用"均方误差"作为性能度量。

分类任务常用"精度"、"错误率"两种性能度量。

错误率和精度

错误率：m个样本，有多少次和我的实际不符合。

精度：1-错误率，就是有多少次和我的实际符合。

PS3-1： $\prod \left ( \cdot \right )$ 是计数符号，相当于一个布尔发生器，当括号内条件满足时输出1，不满足时输出0

查全率、查准率与F1
- 在信息检索、Web搜索等场景中经常需要衡量正例被预测出来的比率或者预测出来的正例中确定比率，此时查准率和查全率比错误率和精度更合适。
- 通过统计真实标记和预测结果的组合可以得到"混淆矩阵"：

查准率：在预测结果中，预测正例对所占所有预测正例中的比例(竖着看)
查全率：在真实情况中，预测正例对所占所有真实情况中的比例(横着看)
TP+FP+FN+TN=样本总数；TP+FP=预测的正例集合；TP+FN=S真正的正例集合
查准率和查全率是一对矛盾度量，一般，查准率高时，查全率低；反之亦然。通常只有在一些简单任务中，才可能使查全率和查准率都很高。

PS3-2：在预测癌症患者时，优先考虑查全率，因为如果有一个人漏判了便很严重，所以我们更看重：真实患有癌症的情况下，模型预测正确的概率。

"P-R"曲线:将学习器认为”最有可能“是正例的样本排在前面，”最不可能“的样例排在最后，按照这个顺序逐个把样本作为正例进行预测，计算查全率R作为横轴，查准率P作为纵轴

如图，若是一个学习器的P-R曲线被另一个学习器的曲线完全包住，则可断言后者性能优于前者。

PS3-3：思考：P和R怎么绘制成曲线的，对应的关系是什么？答：采用阈值搭建P与R的桥梁构建函数，不同的阈值对应着不同的P值和R值关系。混淆矩阵的预测结果都是不明确的结果，就会有对应的概率，比如对于样本1 实际为正预测为正的概率为0.9 对于样本2 实际为负预计为正的概率为0.5 这个概率就可以作为阈值。

不懂可以看b站up主耿大哥讲算法：二分类PR曲线(1)PR曲线的绘制_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV1oN411w7HM/?spm_id_from=333.337.search-card.all.click&vd_source=c4bb74d6da89429f75a1c3cf2d6cde14https://www.bilibili.com/video/BV1oN411w7HM/?spm_id_from=333.337.search-card.all.click&vd_source=c4bb74d6da89429f75a1c3cf2d6cde14https://www.bilibili.com/video/BV1oN411w7HM/?spm_id_from=333.337.search-card.all.click&vd_source=c4bb74d6da89429f75a1c3cf2d6cde14https://www.bilibili.com/video/BV1oN411w7HM/?spm_id_from=333.337.search-card.all.click&vd_source=c4bb74d6da89429f75a1c3cf2d6cde14https://www.bilibili.com/video/BV1oN411w7HM/?spm_id_from=333.337.search-card.all.click&vd_source=c4bb74d6da89429f75a1c3cf2d6cde14https://www.bilibili.com/video/BV1oN411w7HM/?spm_id_from=333.337.search-card.all.click&vd_source=c4bb74d6da89429f75a1c3cf2d6cde14

平衡点：当俩个学习器P-R曲线交叉时，可以用“查准率=查全率”时的取值BEP进行度量，学习器C的BEP 0.64，学习器A优于学习器B

F1度量(常用)：其实这个度量就是对查全率和查准率做了一个平均的方法。

PS3-4：数学中有算数平均： $\frac{P+R}{2}$ ，有几何平均 $\sqrt{P\cdot R}$ (可以回想一下基本不等式)，这里使用的是调和平均的方式 $\frac{1}{F1}=\frac{1}{2}\cdot \left ( \frac{1}{P}+ \frac{1}{R}\right )$ 。

F1度量并不是在所有情况下都是越大越好，但其值较高通常意味着模型在精确度和覆盖度上取得了更好的平衡。

β > 0度量了查全率对查准率的相对重要性
β = 1退化为标准F1，说明了F1指标是即不偏向查全率也不偏向查准率；
β > 1时查全率(R)影响更大，根据公式和图片细细理解；
β < 1时查准率(P)影响更大，根据公式和图片细细理解；

上述只是在一次实验中计算的P、R等。当进行多次实验时，引出下面的方法：

“宏查准率”（macro-P） “宏查全率”（macro-R） “宏F1”（macro-F1）先计算每一次的P和R，然后在求平均的macro-P和macro-R并求得macro-F1【就是先分别计算然后再进行求取平均值】

“微查准率”（micro-P） “微查全率”（micro-R） “微F 1”（micro-F1）将各个混淆矩阵对应的元素进行平均，再计算micro-F1 【就是先平均再计算】

ROC与AUC【常评价二值分类器】

ROC曲线：即受试者工作特征曲线，又称感受性曲线，它通过展示不同阈值下模型的假阳性率（FPR）和真正率（TPR）之间的关系，帮助理解模型在分类任务中的表现。

很多学习器是为测试样本产生一个实值或概率预测，然后与分类阈值比较，大于阈值则为正类，否则为反类。可以将样本排序，分类过程就是以 “截断点” 将样本分为两个部门，前一部分为正例，后一部分为反例
更重视查准率，选择比较靠前的截断点，比较重视查全率，选择比较靠后的截断点，因此，排序本身的质量好坏，体现了综合考虑学习器在不同任务下的“期望泛化性能”的好坏，ROC曲线是从这个角度来研究学习器泛化性能的有力工具
- 在不同的阈值下可以得到不同的TPR和FPR值，即可以得到一系列的点，将这些点在图中绘制出来，并依次连接起来就得到了ROC曲线。阈值取值越多，ROC曲线越平滑。
- ROC曲线越靠近图的左上角，说明模型的分类性能越好。
- ROC曲线越接近对角线，模型的分类效果越差，因为对角线代表随机猜测的分类结果。
- 如果模型的ROC曲线完全位于对角线的左上方，则表示模型能够完美区分正负样本，此时AUC为1

AUC：是ROC曲线下的面积，用于衡量模型的整体性能。取值范围：AUC的取值范围是0到1。

用梯形面积公式导出【结合下面ROC曲线(b)图理解】，AUC考虑的是样本预测的排序质量，它与排序误差有紧密联系。

AUC越接近1，说明模型的分类能力越强。
AUC=1表示完美分类，模型的性能非常好。
AUC=0.5表示模型的性能与随机猜测相当。
AUC<0.5表示模型的预测效果不如随机猜测，可能存在问题。
“受试者工作特征” ROC： ROC曲线的纵轴是“真正例率”（TPR），横轴是“假正例率”（FPR）【注意与查准率和查全率进行区分】，就是

PS3-5：理解何为真正例率，就是预测结果中的真正例(TP)比上所有真实的正例(TP+FN)；何为假正例率，预测结果中的加正例(FP)比上所有真实的假例(TN+FP)

将分类阈值依次设为每个样例的预测值，即依次将每个样例划分为正例；与PR曲线类似，若一个学习器的ROC曲线被另一个ROC曲线完全“包住”，则可断言后者的性能优于前者；若两个曲线交叉，如果一定要比较，通过AUC的大小进行比较。
给定 $m^+$ 个正例和 $m^-$ 个反例，令 $D^+$ 和 $D^-$ 分别表示正反例集合，则排序"损失"定义为：

Rank loss衡量的是分类器输出的预测值与实际标签的一致性。在二分类问题中，Rank loss通常指的是正样本的预测值低于负样本预测值的情况。理想情况下，我们希望正样本的预测值高于负样本。而且 $AUC=1-\iota _{rank}$ 【对应上图ab空白部分为 $\iota _{rank}$ 】

PS3-6：【个人理解】这个公式的意思就是说，若是正例的预测值小于反例的预测值，则+1；若是正例的预测值等于反例的预测值，则＋ $\frac{1}{2}$ 。还是难以理解，这里注意该式子计算的是损失，假设在一个效果比较好的学习器中，一个正例被预测为正例的概率是比较大的，若是有一个反例，被预测为正例的概率应该是比较小的。若是存在一个正例A 预测为正例的概率为0.8，存在一个反例B 预测为正例的概率为0.9。这种情况就是把一个负例预测为一个正例比例较高的值所以这个时候就要给出一个损失值。

如何绘制ROC曲线见：绘制ROC曲线详解https://blog.youkuaiyun.com/xiaohuihui1994/article/details/87987836https://blog.youkuaiyun.com/xiaohuihui1994/article/details/87987836https://blog.youkuaiyun.com/xiaohuihui1994/article/details/87987836https://blog.youkuaiyun.com/xiaohuihui1994/article/details/87987836https://blog.youkuaiyun.com/xiaohuihui1994/article/details/87987836https://blog.youkuaiyun.com/xiaohuihui1994/article/details/87987836

代价敏感错误率与代价曲线
- 代价敏感错误率：指在分类问题中，不同类别的错误（如将正类误判为负类和将负类误判为正类）分类所造成的代价不同。考虑不同类别的错误分类所造成的不同代价(或者称为权重)，并据此调整模型以最小化总体代价的一种评估指标。
- 代价曲线则是一个用于评估代价敏感学习算法性能的工具。它通过将不同分类阈值下的总代价绘制成图表，以直观地展示不同阈值对模型性能的影响。ROC曲线不能直接反映出学习器的期望总体代价，代价曲线可以。

以二分类问题为例，设置一个二分类代价矩阵：

$cost_{ij}$ 表示将第 i 类样本预测为第 j 类样本的代价

一般而言，若是 $cost_{ii}$ ；

若是将第0类判别为第一类造成的损失更大，则 $cost_{01}> cost_{10}$ ；

损失程度相差越大， $cost_{01}$ 与 $cost_{10}$ 的值差别就越大

令 $D^+$ 和 $D^-$ 分别代表样例集D的正例子集和反例子集，则 “敏感代价”（cost-sensitive）错误率为：

PS3-7：这个公式的意思就是在 $D^+$ 中，判断错的个数乘以对应的 $cost_{01}$ ，在 $D^-$ 中，判断错的个数乘以对应的 $cost_{10}$

“非均等代价”：指在某些情境下，不同类型的错误或决策所带来的损失或代价是不同的。例如，在医疗诊断中，将患有疾病的患者误判为健康（假阴性）的代价可能远高于将健康人误判为患病（假阳性）的代价。因为假阴性可能导致患者错过最佳治疗时机，而假阳性可能只是带来一些额外的检查费用和心理压力。

在非均等代价下，ROC曲线不能直接反映出学习器的期望总体代价，而 “代价曲线” 则可达到这个目的。代价曲线图的横轴是取值为[0，1]的正例概率代价

若p是样例为正例的概率；纵轴是取值为[0,1]的归一化代价【其中，FNR=1-TPR是假反例率，FPR是假正例率】

PS3-8：以上两个公式的分母做了归一化处理。归一化的原因：

        ①便于比较不同模型。不同模型数据情况不同，归一化分母可将代价放在统一尺度，公平比较它们的代价曲线；

        ②消除数据影响。数据规模和分布会干扰代价计算，归一化分母可让代价计算少受这些因素干扰，更关注模型性能；

        ③符合习惯表示。在概率和统计场景中，归一化符合习惯，能让代价曲线取值范围更符合直观理解，方便决策。

ROC每个点，对应代价平面上一条线。

PS3-9：为什么是一条直线，看上两式：横轴为 $P(+)_{cost}$ 等于的主要变量为 $cost_{01}$ (所以可以理解为 $cost_{01}$ 就是横坐标)；而纵坐标为 $cost_{norm}$ ，分母是归一化，横坐标为" $cost_{01}$ "。构成的是线性关系，所以是直线。

例如，ROC上(TPR,FPR),计算出FNR=1-TPR，在代价平面上绘制一条从(0，FPR)到(1，FNR)的线段，面积则为该条件下期望的总体代价。所有线段下界面积，所有条件下学习器的期望总体代价。下图的每一条直线的阈值都不相同。

4、比较检验【目的：测试集上的性能能再多大程度上保证真实的性能】

在某种度量下取得评估结果后，是否可以直接比较以评判优劣？（答：NO！！！）涉及到的三个问题：
- 我们希望比较的是泛化性能（泛化指的是未来），然而试验评估的是测试集上的性能，两者未必相同。即，测试性能不等于泛化性能
- 测试集上的性能与测试集本身的选择有很大关系，使用不同大小的测试集会得到不同的结果，即使大小相同，测试样例不同，结果也会不同。即，测试性能随着测试集的变化而变化
- 很多机器学习算法本身就有一定的随机性，即便用相同的参数设置在同一个测试集上多次运行，其结果也会有不同

PS4-1：机器学习做的是“概率近似正确”不是在找确定的最优的！以很大的可能性找到一个很好的模型！

常见的检验方法
- 统计假设检验为学习器性能比较提供了重要依据。即比较两算法性能是否相同。一般我们假设两算法性能一样，很显然，若拒绝，则性能不一样，若没拒绝则性能一样。
- 两学习器比较：
  - 1.交叉验证 t 检验 (基于成对 t 检验) ；k 折交叉验证； 5x2交叉验证
  - 2.McNemar 检验 (基于列联表，卡方检验)
- 多学习器比较：
  - 1.Friedman检验 (基于序值，F检验; 判断“是否都相同”)
  - 2.Nemenyi 后续检验 (基于序值，进一步判断两两差别)
假设检验【不拒绝≠接受，就是当小概率事件发生时，推翻假设】
- 假设检验：用于根据样本数据对总体做出推断。它首先提出两个假设：一个是研究者想要拒绝的零假设（H0），另一个是研究者希望接受的备择假设（H1）。然后，通过计算样本数据的统计量并与临界值或分布进行比较，来判断应该接受哪个假设。如果样本数据提供的证据足够强，以至于我们可以在一定的显著性水平下拒绝零假设，那么我们就接受备择假设。对于机器学习，假设"学习器"的泛化错误率的分布，由于现实任务中不知道学习器的泛化错误率，只能知其测试错误率，但泛化错误率和测试错误率未必相同，故要根据测试错误率去推断泛化错误率。
  - 举个例子，讲述逻辑四步：
    - ① 零假设：小明偷吃苹果；备选假设：小明没吃苹果；
    - ② 证据：在零假设的前提下计算的概率P；
    - ③ 判断标准：概率＜α 显著水平；
    - ④ 如果P＜=α，拒绝零假设，备选假设成立；P＞α，零假设成立；

分析一下二项检验：

问题1：假设我们有一个球堆A，里面有一些黑球和白球，我们拿m次球，拿到的黑球有m∗p个，随后我们又在球堆B里拿球，球堆有m0个球，我们拿到黑球的概率是P2，请问我们恰好有m∗p次拿到黑球的概率是多少？

$C_{m*p}^{m_{0}}\cdot P_{2}^{m*p}\cdot \left (1-P_{2} \right )^{m_{0}-m*p}$

问题2：泛化错误率为 ϵ 的学习器在一个样本上犯错的概率为 ϵ ，而测试错误率表示的在m个测试样本中恰好有个被误分类，假定测试样本是从总体分布中独立采样得到的，请问泛化错误率为ϵ的学习器将个样本误分类，其余样本全部分类正确的概率是多少？【仔细品鉴这两个问题的关联】
- 这里面的泛化错误率是不是就是问题1中的 $P_2$ ，测试错误率就是问题1中的p，问题2中的m和 $m_0$ 分别对应问题1中的m和 $m_0$ ；如此一来就得到下式：

要通过多次重复留出法或者交叉验证法进行多次训练/测试，如此得到多个测试错误率。比如使用"t检验"【t检验：主要用于比较两组数据（如两个样本的均值）之间是否存在显著差异。通过计算样本数据的统计量（如T值）并与临界值或分布进行比较，来判断两组数据之间的差异是否显著。】；假设得到了k个错误率，则平均测试错误率μ和方差 $\sigma ^2$ ：

服从自由度k-1的t分布【下图考虑双边假设】

看不懂就去补数理统计

交叉验证t检验
- 对于两个学习器A和B，若我们使用了k折交叉验证法【不记得就会看2、评估方法】得到的错误率分别为 $\epsilon _{1}^{A}$ ， $\epsilon _{2}^{A}$ ，…， $\epsilon _{k}^{A}$ 和 $\epsilon _{1}^{B}$ ， $\epsilon _{2}^{B}$ ，…， $\epsilon _{k}^{B}$ ， $\epsilon _{i}^{A}$ 和 $\epsilon _{i}^{B}$ 是相同的第 i 折训练/测试集所得结果，用k交叉验证成对t检验进行检验。【思想：若是两个学习器的性能相同，则错误率理应相同】对每一对结果求差值 $\Delta _i=\epsilon _{i}^{A}-\epsilon _{i}^{B}$ ，再求差值 $\Delta _i$ 的均值μ和方差 $\sigma ^2$ ，变量

小于临界值，则假设不能拒绝，即认为性能无显著差别

大于临界值，则拒绝假设，即认为性能有差别，且平均错误率小的学习器性能更好。

然而考虑到测试错误率和泛化错误率之间的独立采样，这种交叉检验并不独立，会导致高估假设成立的概率。则考虑“5×2交叉验证法”，就是5次2折交叉验证【每次验证前都把数据随机打乱，让这些数据划分不重复】，分别求差得到第1折和第2折的差值 $\Delta _{i}^{1}$ 和 $\Delta _{i}^{2}$ ，只对第1折计算平均值 $\mu =\frac{1}{2}\cdot \left ( \Delta _{1}^{1}- \Delta _{2}^{1}\right )$ ，但是方差两折结果都计算 $\sigma _{i}^{2}=( \Delta _{i}^{1}-\frac{ \Delta _{i}^{1}+ \Delta _{i}^{2}}{2})^2+( \Delta _{i}^{2}-\frac{ \Delta _{i}^{1}+ \Delta _{i}^{2}}{2})^2$ ，变量

PS4-2：为什么仅计算第一次2折交叉验证的两个结果的平均值？为什么要计算方差？

        ①平均值μ的计算：

                其一，简化计算，基于假设"5次交叉验证的数据划分和实验结果都是相对独立且同分布的"，这里选择计算第一次不绝对，也可以计算所有实验结果的平均值，这样计算量就增加了，而且会引入更多的噪声。

                其二，缓解测试错误率的非独立性通常是由交叉验证中不同轮次的训练集存在重叠，导致测试集上的错误率受到之前训练集的影响。故如此求解平均值μ只是为了保持准确的同时降低计算复杂性。而缓解非独立性的关键在于整个过程，即数据打乱、多次交叉验证和方差分析。

        ②方差的分析就比较好理解了，以评估性能差异的稳定性。又因为每次2折交叉验证的数据划分都是独立的，因此每次实验的方差都是相对独立的。为了评估两个学习器的性能差异，我们需要考虑所有实验结果的方差。

McNemar检验
- 这种二分类问题，可以生成两学习器分类差别列联表：

若最初的假设正确，即两个学习器性能相同，则应有e01 = e10 ,如此来看，变量应该属于正态分布，且均值为1。服从卡方分布

Friedman检验与Nemenyi后验检验

交叉验证t检验和McNemar检验都是在一个数据集上比较两个算法的性能，所以引入Friedman检验与Nemenyi后验检验。

Friedman检验用于比较来自不同群体或条件的相关样本，确定多个相关样本是否存在显著差异基于样本的秩次或等级信息，适用于有序分类变量或等级变量，且不依赖于数据的正态分布假设。

PS4-3：原理：Friedman检验的原理基于样本在各个组别中的秩次或等级信息。先计算每个样本在所有组别中的相对位置（即秩次），再计算平均秩次和Friedman统计量。与显著性水平比较，判断多个总体分布位置是否存在显著差异。

Nemenyi检验是Friedman检验的后续分析方法，用于比较多个算法之间的两两差异。基于Friedman检验结果，确定具体哪些算法之间存在显著差异。

PS4-4：原理：Nemenyi检验的核心通过对所有可能的组对进行比较，检查它们之间的差异是否显著。计算每对算法之间的排名差异，并将差异与临界值进行比较。如果差异大于临界值，则认为两者之间存在显著差异。

假设用 $D_1$ ， $D_2$ ， $D_3$ ， $D_4$ 四个数据集对算法A、B、C、D进行比较。首先使用留出法和交叉验证法得到每个算法在每个数据集上的测试结果，然后在每个数据集上根据算法测试性能的由好到坏排序，并且赋值1，2，….；然后得到平均序值【平均序值排名越高，性能越好】。

N个数据集上比较k个算法，令 $r_i$ 表示第 i 个算法的平均序值， $r_i$ 服从正态分布，其均值和方差分别为 $\frac{k+1}{2}$ 和 $\frac{k^2-1}{12N}$ ，变量：

k和N都比较大时，服从自由度k-1的χ2分布，由于上述的检验过于保守，现在通常使用变量

τF服从自由度为k-1和（k-1)(N-1)的F分布

若“所有算法的性能相同”这个假设被拒绝，则说明算法的性能显著不同，这是需要 “后验检验” ，常用的Nemenyi后验检验，计算出平均序值差别的临界值域：

若是两个算法的平均序值之差超过了临界值域CD，则以相应的置信度拒绝"两个算法性能相同"的假设。

PS4-5：纵轴是算法，圆点表示各个算法的平均序值，标出临界值域，两个算法有交叠，则说明两个算法没有显著差别。A与B没有差别因为算法有交叠；由于A算法的平均序值为1，而C算法的平均序值为3，所以A的性能优于C的性能。

5、偏差与方差【泛化误差的来源】

偏差：偏差反应的是模型在样本上的输出与真实值之间的误差，即算法的预测的平均值和真实值的关系，偏差越大，越偏离真实数据，表明模型的拟合能力越弱。可以通过引入更多的相关特征、采用多项式特征和减少正则化参数来降低高偏差。
方差：方差反应的是模型每一次输出结果与模型输出期望之间的误差，即不同数据集上的预测值和所有数据集上的平均预测值之间的关系，用来衡量随机变量或一组数据时离散程度的度量，方差越大，数据的分布越分散，表明了数据越不稳定。可以通过采集更多的样本数据、减少特征数量，取出非主要的特征和增加正则化参数来降低高方差。
噪声，则表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界，即刻画了学习问题本身的难度

“偏差-方差分解”：是解释学习算法泛化性能的一种重要工具，试图对学习算法的期望泛化错误率进行拆解

以回归任务为例，学习算法 $f(x;D)$ 的期望预测为 $\overline{f}(x)=E_D[(f(x;D))]$ ,使用样本数相同的不同训练集产生的方差为 $var(x)=E_D[f(x;D)-\overline{f}(x)^2]$ ,噪声为 $\epsilon ^2=E_D[(y_D-y)^2]$ ，偏差为 $bias^2(x)=(\overline{f}(x)-y)^2$ ，对其进行讨论，假设噪声期望为0，即 $\epsilon ^2=0$ 。对算法的期望泛化误差进行分解：