数据:m个样例的数据集 D={(X1,Y1),(X2,Y2),…(Xm, Ym)}
-
留出法
S为训练集,T为测试集,D=S∪T, S∩T=Ø特点:测试集小时,评估结果的方差较大,训练集小时,评估结果的偏差较大,一般情况将2/3 ~ 4/5的样本用于训练,其余用于测试
(一般测试集至少包含30个样例)
-
交叉验证法
数据集D划分为k个大小相似的 互斥子集,D=D1∪D2∪D3…Dk Di∩Dj=Ø(i≠j),每次用k-1 个子集的并集作为训练集,剩余的子集作为测试集,最终返回的是这 k个测试结果的均值。特点:评估结果的稳定性和保真性在很大程度上取决于 k 的取值,为强调这一点,通常把交叉验证法称为 " k 折交叉验证"
(k常取5,10,20)
-
留一法
数据集 D 中包含 m 个,令 k=m优点:
1)留一法不受随机样本划分方式的影响。唯一划分方式为 m 个子集一一每个子集包含 一个样本;留一法使用的训练集与初始数据集相比只少了一个样本。
2)准确:绝大多数情况下,留一法中被实际评估的模型与期望评估的用 D 训练出的模型很相似。因此,留一法的评估结果往往被认为比较准确。
缺点:
在数据集比较大时,训练 m 个模型的计算开销太大 -
自助法
m 个样本的数据集 D , 我们对它进行采样产生数据集 D’: 每次随机从 D 中挑选一个 样本7 将其拷贝放入 DF’ 然后再将该样本放回初始数据集 D 中,使得该样本在 下次采样时仍有可能被采到,重复执行m次优点:
在数据集较小、难以有效划分训练/测试集时很有用
缺点:
自助法产生的数据集改变了初始数据集的分布,这会引入估计偏差
[参考文档]《机器学习》 周志华