模型评估与选择

Stu_zhouyc

于 2018-03-16 15:44:34 发布

阅读量304

点赞数 2

分类专栏： machine-learning 文章标签：模型选择

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_26911619/article/details/79581840

版权

machine-learning 专栏收录该内容

5 篇文章

订阅专栏

本文介绍了模型评估的基本概念，包括误差、经验误差与泛化误差，以及欠拟合和过拟合的问题及其解决方法。详细讨论了不同的数据划分方法，如留出法、交叉验证和自助法，并介绍了回归任务中的均方误差(MSE)与分类任务中的错误率、查准率(Precision)、查全率(Recall)、F1分数等评估指标。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

模型评估

误差：实际输出与预测输出之间的差值
经验误差：在训练集上的错误率；
泛化误差：在测试集上的错误率

欠拟合与过拟合

欠拟合：模型学习能力低下；

解决办法：增加训练轮数或从模型本身的特征出发：如NN增加神经元个数

过拟合：模型学习能力过于强大

解决办法：无法彻底避免；使经验误差最小化得意缓解

训练、测试数据的划分

留出法: 直接将数据集划分为两个互斥的集合：训练集和测试集

数据划分时应尽量保持数据分布的一致性，各自的正负样本比例应一样;
即便划分后数据分布一样，但是划分方法有很多种，应多用几种划分方式，最后取其模型评估结果的平均值作为最终结果
交叉验证

交叉验证法划分数据集又称“k折交叉验证”，评估结果的稳定性与K关系极大
同样的取划分次数后各自模型的结果平均作为最终结果。
次法结果虽然准确但是开销太大
自助法(bootstrapping): 类似有放回的采样

数据集D样本总数m，每次从D中采样一个样本，重复执行m次获得新数据集
最后大概有%36的数据不会被采样到，这部分数据可作为测试集；这样的测试结果又叫做包外估计（oob，out-of-bag）
当数据集较小或样本分布不均时作用颇大

如何评估泛化性能

回归任务

均方误差（mse）
$mse =\frac{1}{m}\sum(f(x_i)-y_i)^2$

分类任务

错误率： $\frac{a}{m}$
精度： $1-\frac{a}{m}$ , 其中，m：样本数，a：分类错误数
分类混淆矩阵：
查准率(精度，precision)

precision = $\frac{TP}{TP+FP}$
查全率（召回率.recall）

$recall=\frac{TP}{TP+FN}$
F1

$F1 = \frac{2 * precison * recall}{precision+recall}$
ROC与AUC
对预测样本的排序能力，评价模型的综合性能

偏差和方差：矛盾体

偏差与方差是矛盾的，偏差高则方差低；反之亦然
- 偏差：算法本身的学习能力
- 方差：变换数据所带给它的学习能力的变化

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。