
机器学习
wrp335
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
记录我的组队学习之路——基于二手车价格预测比赛——特征筛选、建模、优化
前面已经通过特征工程对特征进行了预处理,并且构造了新的特征,接下来我们就可以进行建模,筛选特征、调参优化。 总体思路如下: 使用树模型(xgb/randomForest)看一下现所有特征建模结果,以此作为一个基准; 选择入模特征; 使用xgb、randomForest、lightgbm分别进行建模,选出冠军模型; 对冠军模型参数进行调节,保存模型 可尝试学习模型融合。 初次建模 我使用xgb模...原创 2020-04-11 09:59:54 · 341 阅读 · 0 评论 -
记录我的组队学习之路——基于二手车价格预测比赛——特征工程
**什么是特征过程** 我自己的理解就是我们在建模解决实际问题时,会在建模前收集可能与实际业务有关的特征,但这些特征可能是一些单一的特征,通过EDA也发现这些特征值有异常值,缺失值等,不同的模型对特征的要求不同,这些特征直接进入模型的效果往往不好,因此,我们需要对特征进行清洗,加工,筛选最终进入模型。 以下数据处理过程以二手车价格预测比赛为例 **异常值处理** 异常值处理方法有很多如3西格玛法,...原创 2020-03-31 15:36:17 · 218 阅读 · 0 评论 -
记录我的组队学习之路——基于二手车价格预测比赛——EDA
EDA 探索性数据分析(Exploratory Data Analysis 简称EDA)是一种分析数据集以概括其主要特征的方法,通常使用可视化方法,不同于初始数据分析(IDA),它更集中于检查模型拟合和假设检验所需的假设,以及处理缺少的值,并根据需要进行变量转换。EDA包含IDA。 探索性分析的过程: 1.形成假设,确定主题去探索; 2.清理数据; 3.评价数据质量; 4.数据报表; 5.探索分析...原创 2020-03-23 19:08:03 · 216 阅读 · 0 评论 -
记录我的组队学习之路——基于二手车价格预测比赛——赛题理解
自从毕业之后,都没有好好的系统性进行数据挖掘学习了,基于datawhale这次组织的组队学习,以赛练技,加深自己对数据挖掘过程各个环节的理解。 理解赛题数据 目标:对二手车价格进行预测。 *[平常我做的一般都是预测类模型,这次是回归型模型可以好好学一下。] 训练集:15W; 测试集A:5W; 测试集B:5W; 两个测试集的设置的作用是什么,跨时间,跨区域? 特征个数:31个,其中15个匿名变量。 ...原创 2020-03-23 10:40:42 · 228 阅读 · 0 评论