【Uplift】特征选择篇

最新推荐文章于 2025-10-31 15:10:50 发布

原创

最新推荐文章于 2025-10-31 15:10:50 发布 · 1.6k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#增量建模 #uplift modeling #因果推断 #特征选择 #Causal

https://zhuanlan.zhihu.com/p/363866684

【Uplift】特征选择篇

文章目录

【Uplift】特征选择篇

本文主要参考论文《Feature Selection Methods for Uplift Modeling》介绍Uplift Modeling中的特征筛选问题，主要包括”Filter方法“和”Embed方法“。具体实现参考CausalML源码。

做好特征选择可以带来很多好处，包括计算效率、维护成本、可解释性、减少过拟合等。机器学习中有一系列进行特征选择的方法，主要可以分为3类，即”过滤方法“、”封装方法“、”嵌入方法“，下图是《美团机器学习实践》中的一个比较图。

简单说，”过滤方法“是通过特征变量和目标变量的一些指标计算并设定阈值做过滤；”封装方法“是通过不断尝试特征组合并借助模型效果来打分；”嵌入方法“是用模型训练过程中附带的关于特征重要性的描述作为依据。

在这里插入图片描述

Filter方法

过滤方法计算快，复杂度为 $O(m\cdot n)$ ，m为特征数，n为样本数。

这里介绍了3种过滤方法，分别是F-filter、LR-filter、Bin-Based filter

F-filter和LR-filter

F-filter首先用相关特征训练线性回归模型，特征包括”treatment、目标feature、二者交叉、常数项“，然后用交叉项系数的F-statistic作为得分

statsmodels.regression.linear_model.OLSResults.f_test

LR-filter则基于逻辑回归模型，用交叉项系数的likelihood ratio test statistic作为得分

statsmodels.discrete.discrete_model.LogitResults.llf

Bin-Based方法

Step1：对目标特征排序，并按比例分为K组。

Step2：分别计算每组内，T组和C组中，outcome的分布散度，并求和。即
$\Delta=\sum_{k=1}^{K} \frac{N_{k}}{N} D\left(P_{k}: Q_{k}\right)$
其中，假设outcome共有C类， $P_k=(p_{k1},...,p_{kC})$

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。