一、前言
在Task2中,我们的任务是使用进阶的机器学习模型lightgbm解决本次问题,以达到更好的预测效果。
你可以从中学会
-
使用数据集绘制柱状图和折线图,
-
使用时间序列数据构建历史平移特征和窗口统计特征,
-
使用lightgbm模型进行训练并预测。
特征工程是参与机器学习竞赛的重要环节,可以通过观察数据并结合专业背景知识改善特征或者构建新的特征。
机器学习步骤:探索性数据分析、数据预处理、提取特征、切分训练集与验证集、训练模型、预测结果。
二、了解入门概念
GBDT
GBDT (Gradient Boosting Decision Tree) 是机器学习中一个长盛不衰的模型,其主要思想是利用弱分类器(决策树)迭代训练以得到最优模型,该模型具有训练效果好、不易过拟合等优点。
GBDT不仅在工业界应用广泛,通常被用于多分类、点击率预测、搜索排序等任务;在各种数据挖掘竞赛中也是致命武器,据统计Kaggle上的比赛有一半以上的冠军方案都是基于GBDT。
LightGBM
LightGBM(Light Gradient Boosting Machine)是一个实现GBDT算法的框架,支持高效率的并行训练,并且具有更快的训练速度、更低的内存消耗、更好的准确率、支持分布式可以快速处理海量数据等优点。
LightGBM 框架中还包括随机森林和逻辑回归等模型。通常应用于二分类、多分类和排序等场景。
例如:在个性化商品推荐场景中,通常需要做点击预估模型。使用用户过往的行为(点击、曝光未点击、购买等)作为训练数据,来预测用户点击或购买的概率。根据用户行为和用户属性提取一些特征,包括:
-
类别特征(Categorical Feature):字符串类型,如性别(男/女)。
-
物品类型:服饰、玩具和