【实战项目】基于梯度提升树算法的多特征分类任务

📝 面试求职: 「面试试题小程序」 ,内容涵盖 测试基础、Linux操作系统、MySQL数据库、Web功能测试、接口测试、APPium移动端测试、Python知识、Selenium自动化测试相关、性能测试、性能测试、计算机网络知识、Jmeter、HR面试,命中率杠杠的。(大家刷起来…)

📝 职场经验干货:


笔者在前不久参加了梧桐杯大数据创新大赛,在该赛事的省级初赛中笔者最终选用了梯度提升树模型来完成初赛要求的多特征二分类任务,那么接下来笔者就为大家讲解一下该项目以及其中用到的梯度提升树算法。

赛题任务说明

投诉预测模型需要选手从普通用户中区分出投诉用户群,本次挑战赛设置了更具挑战性的任务,相比其他竞赛,本次竞赛所提供的数据类型较多,包含但不限于客户通话信息、收入信息、流量信息、到访营业厅、拨打热线、装维服务、质差等数据,更需要考察数据处理能力的竞赛任务。

数据集说明

由于涉及到用户隐私以及赛事禁令,具体数据集无法公布与给出,大家可拿其他开源数据集来跑这个模型,只要是多特征二分类的基本上没问题。

模型成果说明

经过特征选择,特征缩放,超参数调优,超参数调优,K折交叉验证和置信度阈值重训练等等实验和处理后,本团队的最终模型可以高效地从客户通话信息、收入信息、流量信息、到访营业厅、装维服务、质差等特征数据中进行学习训练,更快,更准确地判断分类输入模型的每一个用户的预测投诉情况,及时帮助运营商发现数据安全存在的隐患,及时解决问题。

算法选用模型说明

在本次比赛中,本团队首先利用Sklearn库中提供的多种机器学习模型进行简单的训练评估后得到每个模型的Baseline,通过对比选出最优模型---梯度提升决策树模型,而后对其进行特征选择,超参数调优(网格搜索法),K折交叉验证和高置信样本拟合等等实验后形成最终模型,并利用该模型完成了数据特征分析和分类的任务。下文中我会给出模型的所有源码以及相关实验的源码。

一、梯度提升决策树模型简介

梯度

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值