机器学习记录—模型评估方法

数据:m个样例的数据集 D={(X1,Y1),(X2,Y2),…(Xm, Ym)}

  1. 留出法
    S为训练集,T为测试集,D=S∪T, S∩T=Ø

    特点:测试集小时,评估结果的方差较大,训练集小时,评估结果的偏差较大,一般情况将2/3 ~ 4/5的样本用于训练,其余用于测试

    (一般测试集至少包含30个样例)

  2. 交叉验证法
    数据集D划分为k个大小相似的 互斥子集,D=D1∪D2∪D3…Dk Di∩Dj=Ø(i≠j),每次用k-1 个子集的并集作为训练集,剩余的子集作为测试集,最终返回的是这 k个测试结果的均值。

    特点:评估结果的稳定性和保真性在很大程度上取决于 k 的取值,为强调这一点,通常把交叉验证法称为 " k 折交叉验证"

    (k常取5,10,20)

  3. 留一法
    数据集 D 中包含 m 个,令 k=m

    优点:
    1)留一法不受随机样本划分方式的影响。唯一划分方式为 m 个子集一一每个子集包含 一个样本;留一法使用的训练集与初始数据集相比只少了一个样本。
    2)准确:绝大多数情况下,留一法中被实际评估的模型与期望评估的用 D 训练出的模型很相似。因此,留一法的评估结果往往被认为比较准确。
    缺点:
    在数据集比较大时,训练 m 个模型的计算开销太大

  4. 自助法
    m 个样本的数据集 D , 我们对它进行采样产生数据集 D’: 每次随机从 D 中挑选一个 样本7 将其拷贝放入 DF’ 然后再将该样本放回初始数据集 D 中,使得该样本在 下次采样时仍有可能被采到,重复执行m次

    优点:
    在数据集较小、难以有效划分训练/测试集时很有用
    缺点:
    自助法产生的数据集改变了初始数据集的分布,这会引入估计偏差

[参考文档]《机器学习》 周志华

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值