周志华西瓜书笔记——第二章

HannanKan

于 2017-06-22 16:37:37 发布

阅读量1.1k

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/LOVE_CODE_LOVE_LIFE/article/details/73607524

机器学习专栏收录该内容

2 篇文章

订阅专栏

本文介绍了机器学习中的误差类型如过拟合与欠拟合，讨论了如何通过训练误差和泛化误差评估学习器的表现，并介绍了留出法、交叉验证法及自助法等评估方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

2.1 经验误差与过拟合

错误率：分类错误的样本占样本总数的比例

精度：1—错误率

误差：学习器的实际预测输出与样本的真实输出之间的差异

训练误差：学习器在训练集上的误差

泛化误差：在新样本上的误差

过拟合：过度学习样本非主要特征导致学习器泛化能力下降

欠拟合：未完全学习样本的特征

过拟合难以避免，欠拟合可以避免：通过增加训练的轮数、扩展决策树分支等方法可以克服欠拟合；机器学习通常面临NP 问题，机器学习的有效解必然是在多项式时间内的，如果彻底避免了过拟合，说明构造性的证明了P=NP，然而事实上这件事并没有被证明，所以只要P!=NP，则过拟合就无法避免。

模型选择：学习算法+参数配置

2.2 评估方法——通过测试对学习器的泛化误差进行评估，进而做出选择

测试集尽量与样本互斥，即测试样本未在训练集合中出现，未被使用过
如何从数据集中产生训练集和测试集
1. 留出法： 2/3~4/5 作为训练样本，其余作为测试样本，既保证训练集与数据集之间的差别不过大，又保证训练集没有占有绝大多数的样本；训练测试集的划分，尽量保持数据分布的一致性，多种划分方式若干次随机划分重复实验评估取平均值。
2. 交叉验证法：将数据集进行划分成k个互斥且并为数据集的子集合，每次使用k-1个子集作为一个训练集，余下一个作为测试集，进行k次实验，同样，在划分数据集时候存在不同方式，每种划分方式下进行k次实验。一般，取10次划分方式，每次划分成10个子集，总共进行了100次实验。。。特别的，留一法，每次将每个样本作为一个子集，这样有可能提高准确性，但是代价比较大
3. 自助法/有放回采样法：数据集D，从D 中m次随机有放回取样得到集合D`，将D`作为训练集合，D-D`作为测试集。这样会引起估计偏差。在数据集合足够大的时候，采用留出法或交叉验证法
调参与最终模型：

2.3性能度量

使用均方差/积分形式的均方差来描述模型泛化的能力

错误率和精度的计算法方法
查准率、查全率与F1，针对二分类做出详细的描述，，相关概念：混淆矩阵，宏查准率，微查准率，宏查全率，微查全率，宏F1，微F1
ROC 与AUC
未完待续……

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。