
数据分析竞赛总结
记录完整的关于数据分析竞赛的思路、流程、代码等
不停下脚步的乌龟
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【Kaggle-House Price Prediction】代码参考
import numpy as np # linear algebra import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv) %matplotlib inline import matplotlib.pyplot as plt # Matlab-style plotting import seaborn as...原创 2020-04-30 11:16:57 · 1136 阅读 · 0 评论 -
【Kaggle-House Price Prediction】-项目总结
项目对比(与之前工业蒸汽量预测项目相比): 相同点: 二者都属于回归问题,预测一个数值型的目标变量; 在数据预处理方面,两个项目均涉及到对于数据偏态的处理(为了更符合回归问题的正态性要求); 在模型选择上,两个项目几乎一样,都是先训练多个回归相关模型(核函数岭回归、Lasso、ElasticNet、Gradient Boosting Regression、XGBoost Regressor、L...原创 2020-04-30 11:00:07 · 1077 阅读 · 0 评论 -
【天池新人赛-工业蒸汽量预测】8.支持向量回归机SVR、LGBM
支持向量回归机SVR SVM目标是找到一个最佳超平面,将数据尽可能地分开。 SVR目标是找到一个最佳超平面,尽可能拟合更多的样本点(就是回归的思想)。 LGBM LGBM是对XGboost的改进,也属于boosting集成算法。 ...原创 2020-04-30 08:58:07 · 494 阅读 · 0 评论 -
【天池新人赛-工业蒸汽量预测】7.核岭回归KernelRidge
有了岭回归,为什么还要引入使用核函数的岭回归呢? 原因在于,岭回归只适用于线性数据。 但是数据可能是非线性的,单纯地假设真实数据服从线性关系,并用线性模型来回归真实的非线性数据,效果想必不会好。 引入kernel还能有一个好处,就是:引入kernel的RR(Ridge Regression),也就是KRR(Kernel Ridge Regression),能够处理非线性数据,即,将数据映射到某一...原创 2020-04-11 10:05:25 · 696 阅读 · 0 评论 -
【天池新人赛-工业蒸汽量预测】6.岭回归、Lasso、ElasticNet
1. 三个模型主要解决的问题:回归的过拟合(Overfitting)问题 当用于训练的特征和数据较少时,可能会导致上图左侧的欠拟合情况。 我们希望达到的模型效果是上图中间所示。 当用于训练的特征和数据较多时,可能会导致上图右侧的过拟合情况。 2. 岭回归(L2正则化) 在上图中,为了防止过拟合(上图右侧变为上图中间),就需要对一些变量的系数进行惩罚,使其越小越好。 岭回归(也叫L2正则化),就...原创 2020-04-11 09:45:52 · 450 阅读 · 0 评论 -
【天池新人赛-工业蒸汽量预测】4.项目改进想法总结
删除与目标变量低相关的特征。对该项目(全部为数值型数据)可以计算各特征与目标变量之间的spearman相关系数,指定一个阈值,删除低于该阈值的特征。 # 相关系数矩阵可视化模版 # 找出相关程度 plt.figure(figsize=(20, 16)) # 指定绘图对象宽度和高度 colnm = data_train1.columns.tolist() # 列表头 mcorr = dat...原创 2020-04-10 17:00:38 · 523 阅读 · 0 评论 -
【天池新人赛-工业蒸汽量预测】5.另一份值得学习的代码参考
import warnings warnings.filterwarnings("ignore") import matplotlib.pyplot as plt plt.rcParams.update({'figure.max_open_warning': 0}) import seaborn as sns # modelling import pandas as pd import nump...原创 2020-04-10 17:17:11 · 810 阅读 · 0 评论 -
【天池新人赛-工业蒸汽量预测】3.项目思路
项目问题定义:预测工业锅炉蒸汽量,所以项目问题属于回归问题,采用的各种算法应该都属于回归算法。 数据预处理: 异常值处理:给定数据经过脱敏,无法了解每个特征的具体含义,所以异常值的界定较为模糊,所以在项目实践中没有进行异常值处理。 缺失值处理:经过观察,该脱敏数据数据完整,不存在缺失值。 数据标准化:对数据进行Min-Max Scaler标准化 数据偏态处理:通过观察每个特征的数据分布,对右偏...原创 2020-04-10 12:16:15 · 727 阅读 · 0 评论 -
【天池新人赛-工业蒸汽量预测】2.项目描述
项目背景:影响火力发电效率的核心是锅炉的燃烧效率。影响锅炉燃烧效率的因素众多,如燃料供给量、供水量、锅炉的床温、锅炉的压力等。 项目要求:利用锅炉传感器采集到的锅炉工况数据,预测锅炉产生的蒸汽量。 项目数据:锅炉传感器采集的关于锅炉工况的脱敏数据。数据分成训练数据(train.txt)和测试数据(test.txt),其中字段”V0”-“V37”,这38个字段是作为特征变量,”target”作为...原创 2020-04-10 11:32:02 · 384 阅读 · 0 评论 -
【天池新人赛-工业蒸汽量预测】1.代码参考
import matplotlib import matplotlib.pyplot as plt %matplotlib inline import warnings warnings.filterwarnings("ignore") import pandas as pd import numpy as np import keras import math import os import ...原创 2020-04-10 11:17:51 · 761 阅读 · 0 评论