
Kaggle实战
用来记录kaggle项目的学习过程
lys_828
up、up、down、up。wechat联系方式即为博客名称,邮箱为xianl828@163.com
展开
-
【Kaggle纽约出租车车程用时预测实战(5)】XGBOOST训练模型预测结果
1. 数据准备及划分上一步已经完成了数据独热编码的转化,接下来就需要把处理的数据添加到训练和测试数据集中,同时再去掉不需要的数据(上面去掉的都是分类数据,这里去掉的是连续数据)1) 加载训练数据Train_Master = pd.concat([train, vendor_train, s...原创 2020-03-22 17:01:50 · 1745 阅读 · 0 评论 -
【Kaggle纽约出租车车程用时预测实战(4)】One-hot encode处理属性标签数据
特征数据分类分类变量(定量特征)与连续变量(定性特征)。我们训练模型的变量,一般分为两种形式。比如之前进行的房价预测,单以最后的标签(因变量)来看,房价可以在一定范围内取得任意数值,则此时变量为连续变量。如果把房价进行分段处理,之前是按照大于中位数就是高房价,低于中位数就是低房价,那么此时变量为分类变量特征转换。对于分类变量,要进行转换,通常直接转换为数字。比如将高房价和低房价表示为True(...原创 2020-03-22 15:54:03 · 1347 阅读 · 0 评论 -
【Kaggle纽约出租车车程用时预测实战(3)】多样式数据特征工程
1、时间特征首先回顾一下数据print( ' train shape ',train.shape)print( ' test shape ',test.shape)–> 输出的结果为: train shape (1458644, 11) test shape (625134, 9)原创 2020-03-22 14:44:18 · 1889 阅读 · 1 评论 -
【Kaggle纽约出租车车程用时预测实战(2)】Kmeans Clustering + Matplotlib数据可视化
1、加载经纬度信息1.1 提取经纬度字段数据前面已经加载了相关的经纬度信息了,这里直接提取里面的字段,并进行处理即可longitude = list(train.pickup_longitude) + list(train.dropoff_longitude)latitude = list(train.pickup_latitude) + list(train.dropoff_latitu...原创 2020-03-10 15:38:37 · 1741 阅读 · 0 评论 -
【Kaggle纽约出租车车程用时预测实战(1)】Pandas读取和处理多种类型格式数据
1、导入要使用的库这里需要有前期机器学习和数据分析的基础,设置程序运行的路径和忽略警报提醒import osos.chdir(r'C:\Users\86177\Desktop\taxi')import warningswarnings.filterwarnings('ignore')import pandas as pdfrom datetime import datetime, d...原创 2020-03-09 11:07:45 · 2214 阅读 · 3 评论