
数据挖掘实战
文章平均质量分 76
闪闪发亮的小星星
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
机器学习-数值特征
【代码】机器学习-数值特征。原创 2023-10-07 15:16:37 · 451 阅读 · 0 评论 -
部分依赖图(Partial Dependence Plots)以及实战-疾病引起原因解释
接上篇,特征重要性解释特征重要性展示了每个特征发挥的作用情况,partial dependence plots可以展示一个特征怎样影响的了预测结果。前提同样是应用在模型建立完成后进行使用,概述如下:首先选中一个样本数据,此时想观察Ball Possession列对结果的影响。保证其他特征列不变,改变当前观察列的值,例如选择40%,50%,60%(大小)分别进行预测,得到各自的结果。对比结果就能知道当前列(Ball Possession)对结果的影响情况。包: pdpbox。原创 2023-09-14 17:08:57 · 3087 阅读 · 0 评论 -
特征工程建模可解释包(note)
一般情况下,使用集成算法去看特征重要性比较好。关注某一个特征,计算其permutation importance:训练好当前模型考虑特征A对模型结果的影响。将特征A打乱顺序,比较模型结果,误差是否变得更大。如果误差改变不大,说明该特征不重要,如果误差改变大,则重要。工具包 eli5。原创 2023-09-14 14:48:15 · 230 阅读 · 0 评论 -
工业化生产预测(xgboost)(笔记版)
任务目标:利用异烟酸生产过程中的各参数,数据集包括生产工程中10个步骤的参数,样本id、A1-A28、B1-B14包括原料、辅料、时间、温度、压强等以及收率特征处理关键: 时间数据如何处理?原创 2023-09-11 11:35:46 · 455 阅读 · 0 评论 -
快手用户活跃度分析(未完成)
为期30天的用户数据,但是不是所有的用户都有30天的信息数据,比如用户A第7天注册的,则其前6天没有数据。预测未来用户活跃度的可能性。预测7天后的,基于第7天,预测第14天,基于第8天,预测第15天用户活跃度的可能性(0/1)活跃用户定义为:在未来七天使用过APP。原创 2023-09-08 13:43:52 · 691 阅读 · 0 评论