
数据挖掘
文章平均质量分 85
个人在数据挖掘方面的经验
tinstone
机器学习、数据挖掘、大数据等相关经历,分享个人工作中的经验,让知识传播下去
展开
-
机器学习的学习曲线
通常模型调参可通过网格搜索的方式进行搜索实验,但是另一种方法是在训练期间评估模型在每次迭代的模型性能,并将结果绘制成图,则该图即为学习曲线。学习曲线提供了一种模型诊断工具,可以解释并建议对模型超参数进行特定更改,从而可能会提高预测性能,通常学习曲线是在 x 轴上显示时间或经验,在 y 轴上显示学习或改进的评估指标值,从而更加了解模型 “学习” 的程度。欠拟合过拟合良好拟合。原创 2023-03-08 17:11:36 · 4518 阅读 · 5 评论 -
机器学习的验证曲线
模型验证曲线用于评估模型是否存在过拟合与欠拟合情况,且有助于调整模型超参数。原创 2023-03-08 17:02:37 · 447 阅读 · 0 评论 -
pyspark 中使用集群未安装的python三方库:加载虚拟python环境
pyspark 中使用集群未安装的python三方库:加载虚拟python环境在使用pyspark运行python代码的过程中,通常遇到集群环境中没有相应的python三方库,即:ImportError: No module named ** ,对于该种情况,通常有两种解决方案:1. 集群中的python环境安装相应的三方库! 走流程、找运维,贼麻烦2. 集群未配置python环境,加载虚拟python环境!(重点讲解该方式,用起来贼方便)未加载库的通常处理方式使用pyspark过程中原创 2021-10-20 17:14:59 · 3055 阅读 · 0 评论