
机器学习
尉迟海棠
这个作者很懒,什么都没留下…
展开
-
[机器学习笔记] 将数据拆分成训练集和测试集的几种方法
问题描述:一般情况下, 我们习惯将原始数据中的80% 作为训练集, 20% 作为测试集(当数据量足够大的时候,也可以将10% 作为测试集。 数据量较小时,如果每次都是随机划分训练集,执行多次训练后,模型可能就获取了完成是数据集。这是我们想要避免的。解决上述的问题的方案有以下几种:将第一次运行产生的测试集和训练集保存,后续训练时,先加载保存的训练集和测试集数据设置 random_state, 保证每次分配的测试集相同上述两种方法,当原始数据集增加后,仍然会出现测试数据和训练数据混合的问题,所.原创 2021-06-06 13:24:02 · 21480 阅读 · 0 评论 -
[机器学习笔记] 如何解决过拟合和欠拟合
1. 如何解决过拟合:简化模型:可以选择较少参数的模型,也可以减少训练数据中的属性数量,或者是约束模型收集更多的训练数据减少训练数据中的噪声(例如,修复数据错误和消除异常值)2. 如何解决欠拟合:选择一个带有更多参数,更强大的模型给学习算法提供更好的特征集减少模型中的约束(例如:减少正则化超参数)...原创 2021-06-05 21:40:59 · 183 阅读 · 0 评论