
Datawhale 零基础入门数据挖掘
爱吃肉爱睡觉的Esther
这个作者很懒,什么都没留下…
展开
-
Datawhale 零基础入门数据挖掘-Task5 模型融合
5.1 内容介绍 模型融合是比赛后期一个重要的环节,大体来说有如下的类型方式。 1.简单加权融合: 回归(分类概率):算术平均融合(Arithmetic mean),几何平均融合 (Geometric mean); 分类:投票(Voting) 综合:排序融合(Rank averaging),log融合 2.stacking/blending: 构建多层模型,并利用预测结果再拟合预测。 3....原创 2020-04-04 19:28:56 · 133 阅读 · 0 评论 -
Datawhale 零基础入门数据挖掘-Task4 建模调参
4.1 内容介绍 1.线性回归模型: 线性回归对于特征的要求; 处理长尾分布; 理解线性回归模型; 2.模型性能验证: 评价函数与目标函数; 交叉验证方法; 留一验证方法; 针对时间序列问题的验证; 绘制学习率曲线; 绘制验证曲线; 3.嵌入式特征选择: Lasso回归; Ridge回归; 决策树; 4.模型对比: 常用线性模型; 常用非线性模型; 5.模型调参: 贪心调参方法;...原创 2020-04-01 19:04:41 · 160 阅读 · 0 评论 -
Datawhale 零基础入门数据挖掘-Task3 特征工程
3.1 特征工程的内容介绍 常见特征工程包括: 1.异常处理 通过箱线图(或 3-Sigma)分析删除异常值; BOX-COX 转换(处理有偏分布); 长尾截断; 2.特征归一化/标准化: 标准化(转换为标准正态分布); 归一化(抓换到 [0,1] 区间); 针对幂律分布,可以采用公式: ????????????(1+????1+????????????????????????)log(1+x1+median) 3.数据分桶 等频分桶; 等距分桶...原创 2020-03-28 17:58:09 · 110 阅读 · 0 评论 -
Datawhale 零基础入门数据挖掘-Task2 数据分析
1.赛题数据 赛题以预测二手车的交易价格[price]为任务。 该数据来自某交易平台的二手车交易记录,总数据量超过40w,包含31列变量信息,其中15列为匿名变量。 为了保证比赛的公平性,将会从中抽取15万条作为训练集,5万条作为测试集A,5万条作为测试集B,同时会对name、model、brand和regionCode等信息进行脱敏。 2.数据分析 2.1 载入各种数据科学以及可视化库 #c...原创 2020-03-24 20:51:19 · 377 阅读 · 1 评论