机器学习记录—模型评估方法_记存模型的评价-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_44189446/article/details/108240485

数据：m个样例的数据集 D={(X1,Y1),(X2,Y2),…(Xm， Ym)}

留出法
S为训练集，T为测试集，D=S∪T， S∩T=Ø

特点：测试集小时，评估结果的方差较大，训练集小时，评估结果的偏差较大，一般情况将2/3 ~ 4/5的样本用于训练，其余用于测试

（一般测试集至少包含30个样例）
交叉验证法
数据集D划分为k个大小相似的互斥子集，D=D1∪D2∪D3…Dk Di∩Dj=Ø(i≠j),每次用k-1 个子集的并集作为训练集，剩余的子集作为测试集，最终返回的是这 k个测试结果的均值。

特点：评估结果的稳定性和保真性在很大程度上取决于 k 的取值，为强调这一点，通常把交叉验证法称为 " k 折交叉验证"

(k常取5，10，20)
留一法
数据集 D 中包含 m 个，令 k=m

优点：
1）留一法不受随机样本划分方式的影响。唯一划分方式为 m 个子集一一每个子集包含一个样本;留一法使用的训练集与初始数据集相比只少了一个样本。
2）准确：绝大多数情况下，留一法中被实际评估的模型与期望评估的用 D 训练出的模型很相似。因此，留一法的评估结果往往被认为比较准确。
缺点：
在数据集比较大时，训练 m 个模型的计算开销太大
自助法
m 个样本的数据集 D ，我们对它进行采样产生数据集 D’: 每次随机从 D 中挑选一个样本7 将其拷贝放入 DF’ 然后再将该样本放回初始数据集 D 中，使得该样本在下次采样时仍有可能被采到，重复执行m次

优点：
在数据集较小、难以有效划分训练/测试集时很有用
缺点：
自助法产生的数据集改变了初始数据集的分布，这会引入估计偏差