
机器学习
文章平均质量分 80
Python风控模型与数据分析
这个作者很懒,什么都没留下…
展开
-
最简数据挖掘|房租价格预测
数据源自最简数据挖掘系列,内容包括位置、出租方式、卧室/客厅/卫生间数量、楼层、面积、装修情况、户型朝向、小区房源情况等等信息,其中包括位置、区、小区名、Label等在内的多个字段都已经过编码/脱敏处理。数据获取见文末。原创 2024-01-29 10:00:00 · 590 阅读 · 0 评论 -
最简数据挖掘|垃圾邮件分类
数据源自最简数据挖掘系列,Email英文的邮件内容,其中Label列ham为正常邮件、spam为垃圾邮件。数据获取见文末统计邮件是否为垃圾邮件的标签分布如下,可以看到4458样本中有592条垃圾邮件。原创 2024-01-24 10:00:00 · 817 阅读 · 0 评论 -
最简数据挖掘|房价预测
数据源自最简数据挖掘系列,内容出售日期、卧室/浴室数量、楼层、生活面积、停车坪面积、地下室面积、建筑面积、修成年份、经纬度等等信息。数据获取见文末字段含义。原创 2024-01-15 10:00:00 · 929 阅读 · 0 评论 -
Python银行营销响应模型实战
在金融信贷领域的获客环节中,银行/金融机构往往通过电销的方式来邀请客户进行存款、购买金融产品、借贷等活动,而营销响应模型可以在营销活动数据基础上,通过学习是否成功营销和特征数据间的关系、能够精准识别未来其他客户的响应概率(如购买理财产品意愿),只针对高响应人员营销、从而极大提升营销人员工作效率。原创 2024-01-08 18:52:27 · 1243 阅读 · 0 评论 -
Python风控实战催收评分卡(xgb)
在风控环节中,传统观念A卡为主、B卡C卡为辅,但是在市场逐步饱和、政策利率要求越来越低的背景下,B卡和C卡也越来越重要。本文以简易贷后数据实战催收评分模型,预测在用户逾期后、未来能否催回。原创 2023-11-16 09:45:00 · 948 阅读 · 0 评论 -
Python银行信贷风控建模实战(xgb+lgb)
银行风控数据来源某比赛网站(下图仅为部分字段),数据集中包含银行借贷订单的金额、利息、账期、担保等基本信息,还有历史授信情况,数据类型同样包含数值型、类别型、日期等变量,同时存在缺失问题,适合初学者入门练习原创 2023-11-28 09:51:44 · 2331 阅读 · 0 评论 -
2023第二届全国大学生数据分析大赛A题思路
首先看整个题目和问题,最终目的是通过用户的交易行为、交易金额、 交易频率、交易时间等信息,分析用户的行为,可促进二次营销,精准营销,促活;题目中要求建模来定位给那些用户发放优惠券,而发优惠券正是促销手段的一种。原创 2023-11-05 10:20:05 · 2526 阅读 · 6 评论 -
DataCastle企业风险算法赛实战(进阶难度)
DataCastle的华录杯算法赛实战,本文数据处理较为复杂、特征挖掘内容较多,适合统计学/机器学习相关专业、或者有一定模型算法/数据挖掘经验的同学,经验较浅的也可以作为进阶项目实战提升。原创 2023-11-03 10:00:00 · 431 阅读 · 1 评论 -
Python租房价格分析及预测(xgb+catboost+rf)
早年爬取过我爱我家上北京的部分租房信息,现在重新拿来分析和建模,以往文章大多偏二分类、这次来个数据分析+回归模型的文章。原创 2023-10-30 10:00:00 · 1357 阅读 · 0 评论 -
NGBoost参数详解及实战
ngboost,继xgboost、lightGBM、catboost之后boosting家族的新成员,拥有更高的精度、不过由于计算复杂度高导致训练和推理速度更慢。本文详细其介绍原理、参数及代码实战,一文即可掌握。原创 2023-08-24 10:00:00 · 3522 阅读 · 1 评论 -
决策树可视化 xgb、lgb可视化
很多场景下决策树可以用于分析解决问题,所以可视化是必不可少的环节,另外在建模时xgb、lgb的可视化可以帮助我们了解模型结构,本文提供决策树、xgb、lgb的可视化代码样例可以参考原创 2022-08-04 22:30:24 · 2228 阅读 · 0 评论 -
风控算法赛lgb实战-拍拍贷魔镜杯
以拍拍贷风控算法大赛数据为基础,用丝滑的代码实现从数据基础统计、变量分析及筛选、数据清洗及特征衍生到建模调参解决过拟合问题等完整的风控分析及建模流程,对于风控从业者、机器学习初学者均有一定的参考价值,可下载数据集及全文代码............原创 2022-07-29 16:23:10 · 1941 阅读 · 0 评论 -
Catboost原理详解
对于类别型变量而言,xgb需要先自行编码、才能输入模型;lgb极大地简化了一步,只需要将相应的变量列转化为category、或指定类别型变量名即可输入模型;catboost进一步处理,不仅嵌入了对类别型变量的处理,并附带类别型特征交叉功能、还加入了部分文本数据的处理。本文深入浅出地详解catboost,全篇通俗易懂帮助大家掌握原理。...原创 2022-07-25 20:56:49 · 4240 阅读 · 1 评论 -
xgboost原理(无推导就轻易理解)
xgboost原理是面试的常考点,不需要公式推导就可以轻松理解:多颗决策树串行训练,第一棵树拟合训练目标、第二颗树拟合前面的残差、第三棵树拟合前两棵树留下的残差,逐步迭代下去。原创 2022-07-19 09:49:08 · 2229 阅读 · 1 评论 -
python网格搜索、贝叶斯调参实战
建模的整个过程中最耗时的部分是特征工程(含变量分析),其次可能是调参,所以今天来通过代码实战介绍调参的相关方法:网格搜索、贝叶斯调参。 工作中最常用的训练集测试集划分方法主要是随机比例分割和(分层)交叉验证,随机比例分割可以按照7-3、8-2的比例划分训练集、测试集,但是这样的数据划分存在一定随机性,不如使用交叉验证来的严谨。2、初始化模型对象、5折交叉验证,交叉验证函数cross_validate可以设定多...原创 2022-07-10 01:23:29 · 3551 阅读 · 7 评论 -
xgboost缺失值处理
xgb作为常用的集成模型之一,几乎是风控面试的必考点,其中一个特点是可自行处理缺失值、简化了我们数据的处理流程,那么xgb在训练和预测时是如何处理缺失值的呢?原创 2022-07-10 00:35:06 · 7457 阅读 · 4 评论 -
catboost参数详解及实战(强推)
catboost参数详解(史上最细),以及实战贝叶斯调参原创 2022-07-04 16:29:49 · 24804 阅读 · 4 评论 -
模型可解释性-shap value
Shap值衡量特征的边际贡献度,是当前模型解释的最佳方法之一,对于模型进行可视化的全局解释、局部解释,可以在一定程度上满足业务对于模型解释性的要求。本文通过实例对shap原理进行讲解,帮助初学者、从业人员快速理解,并以代码进行全流程实战和结果展示、帮助大家上手使用。............原创 2022-06-16 22:06:48 · 12986 阅读 · 4 评论