对于上述的留出法和交叉验证法,我们留取精华,去其糟粕。
如现在有一群水果,现在选我们的训练集,随机从水果中去抽取我们的品种。
抽取一个后,就把它的复制体放到D内,再将该样品放回水果内。
这样反复抽取M次后,我们就获取了数据体D,D包含M次的数据集,训练集经概率运算后
可得到不被提取到的概率为0.368(用概率论处理再取极限可得),那采到的训练集D概率为0.632.
采样得到训练集概率满足于2/3~4/5之间。
这种方法适用于数据集较小和难于有限划分训练、测试集时很有用,用结果来验证我们的过程。
但是想做到精确,需要一些时间多尝试几遍。
在初始数据量足够时,留出法和交叉验证法更常用一些。
对于模型的选择是重要的,模型中分类的标准是重要的,
一个好的分类依据具体执行时一定要注意具体参数的选择,和多多尝试
可用二份法来验证上下限。