
数据竞赛
伸腿瞪眼丸
这个作者很懒,什么都没留下…
展开
-
Task5——模型融合
数据竞赛过程中若仅采用一种方法是不能得到很好的效果的,通常要进行模型融合。模型融合通常包括3种方式: 简单加权融合:(1)回归:算数平均融合、几何平均融合;(2)分类:投票;(3)综合:排序融合、log融合。 stacking/blending:构建多层模型,并利用预测结果再拟合预测。 boosting/bagging:多树的提升方法。 stacking理论 stacking是将用初始训练数据...原创 2020-04-04 21:14:17 · 245 阅读 · 0 评论 -
task4——模型和调参
数据挖掘竞赛中通常用到的模型包括xgboost、lightgbm,SVM等。掌握每种模型的原理是学会应用模型的前提条件。因此,本篇文章主要用于梳理线性回归模型、决策树模型、GBDT模型、XGBoost模型以及LightGBM模型的原理及模型的调参方法。 1.线性回归模型 线性回归模型是入门机器学习的经典模型。其基本形式为: hθ(x)=∑i=1nθixi=θTX\ h_{\theta}...原创 2020-04-01 17:04:08 · 174 阅读 · 0 评论 -
Task3——特征工程
特征工程在数据挖掘中是非常重要的一步,如果特征构建的比较好,对结果将有极大的提升。一般而言,特征工程通常包括7个步骤:异常处理、特征归一化/标准化、数据分桶、缺失值处理、特征构造、特征筛选、降维等。我将各步骤可用的方法整理成了思维导图上传至了百度网盘链接:https://pan.baidu.com/s/1Hs2x8aJ63NoRmMu2RdZt8Q 提取码:5e7s 有需要的伙伴可自取哦。 ste...原创 2020-03-28 21:35:55 · 125 阅读 · 0 评论 -
Task2——数据分析
1. 赛题理解 此次数据挖掘的目标为二手车交易价格预测,该问题本质上是一个回归问题。 (1)数据集介绍 数据总量超过370000条,随机抽取其中10万条作为训练数据集,5万条作为测试集A,5万条作为测试集B。数据共包含20个特征变量。 (2)评估指标 对于分类和回归的问题应当采用不同的评估指标。 分类: 二分类:accuracy, precision, recall, F-score, pr曲线...原创 2020-03-24 21:37:29 · 194 阅读 · 0 评论