【Uplift】特征选择篇

https://zhuanlan.zhihu.com/p/363866684

【Uplift】特征选择篇


本文主要参考论文《Feature Selection Methods for Uplift Modeling》介绍Uplift Modeling中的特征筛选问题,主要包括”Filter方法“和”Embed方法“。具体实现参考CausalML源码。

做好特征选择可以带来很多好处,包括计算效率、维护成本、可解释性、减少过拟合等。机器学习中有一系列进行特征选择的方法,主要可以分为3类,即”过滤方法“、”封装方法“、”嵌入方法“,下图是《美团机器学习实践》中的一个比较图。

简单说,”过滤方法“是通过特征变量和目标变量的一些指标计算并设定阈值做过滤;”封装方法“是通过不断尝试特征组合并借助模型效果来打分;”嵌入方法“是用模型训练过程中附带的关于特征重要性的描述作为依据。

在这里插入图片描述

Filter方法

过滤方法计算快,复杂度为 O ( m ⋅ n ) O(m\cdot n) O(mn),m为特征数,n为样本数。

这里介绍了3种过滤方法,分别是F-filter、LR-filter、Bin-Based filter

F-filter和LR-filter

  • F-filter首先用相关特征训练线性回归模型,特征包括”treatment、目标feature、二者交叉、常数项“,然后用交叉项系数的F-statistic作为得分

statsmodels.regression.linear_model.OLSResults.f_test

  • LR-filter则基于逻辑回归模型,用交叉项系数的likelihood ratio test statistic作为得分

statsmodels.discrete.discrete_model.LogitResults.llf

Bin-Based方法

Step1:对目标特征排序,并按比例分为K组。

Step2:分别计算每组内,T组和C组中,outcome的分布散度,并求和。即
Δ = ∑ k = 1 K N k N D ( P k : Q k ) \Delta=\sum_{k=1}^{K} \frac{N_{k}}{N} D\left(P_{k}: Q_{k}\right) Δ=k=1KNNkD(Pk:Qk)
其中,假设outcome共有C类, P k = ( p k 1 , . . . , p k C ) P_k=(p_{k1},...,p_{kC}) Pk=(p

<think>嗯,用户需要为工程管理在职研究生学位论文寻找汽车保险续保业务的创新算法研究方向,特别强调客户分类(H/A/B/C/D类)与数据驱动的解决方案。用户身份可能是汽车金融或保险行业的从业者,需要兼顾学术价值和业务落地性。从问题描述看,用户对行业术语(如客户分级)很熟悉,但需要算法层面的创新突破。结合站内引用,有几个关键点值得注意:1.引用[1]提到的GridsearchCV和多种回归模型(XGBoost、神经网络等)暗示可探索集成学习或深度学习在续保预测中的优化2.引用[2]讨论的神经网络记忆性问题提醒研究需关注模型泛化能力,避免过拟合行业数据用户潜在需求可能是:现有分级模型可能过于依赖传统规则(如RFM模型),需要更动态的、数据驱动的分类方法。因此创新点可围绕:-时间维度:传统分级是静态快照,能否引入时间序列分析(如LSTM)捕捉客户行为演变?-多源数据融合:维修记录、驾驶行为等非结构化数据如何补充传统保单数据?-因果推断:续保率下降是否与特定服务环节存在因果关系?可借鉴Uplift模型风险点在于:保险数据敏感度高,学位论文需注意数据脱敏和合规性。建议用户优先考虑可获取的内部数据源,如保险公司已有的续保漏斗数据。核心创新方向可设计为三个层次:1.数据层创新:解决"用什么数据"——例如融合车联网数据重建客户画像2.算法层创新:解决"如何分类"——例如用图神经网络捕捉客户关联3.策略层创新:解决"如何应用"——例如基于强化学习的动态定价特别注意工程管理专业特性,需突出方案的可实施性。比如在算法选择上,XGBoost比深度学习更易部署,更适合在职研究生的技术落地场景。</think>以下是为汽车售后保险续保业务设计的创新算法研究方向,结合客户分类(H/A/B/C/D类)与数据分析,适用于工程管理在职研究生学位论文: --- ### **方向一:基于集成学习的动态客户分级优化** **核心创新**:突破静态分级局限,引入多维度时序特征 - **算法架构**: $$ \text{CustomerScore}_t = f(\text{RFM}_{\text{base}} + \alpha \cdot \text{维修行为序列} + \beta \cdot \text{驾驶风险画像}) $$ 其中 $\alpha, \beta$ 为通过 $\text{XGBoost+SHAP}$ 学习的特征权重[^1] - **数据融合**: - 车联网数据(急刹/夜间行驶频次) - 维修厂合作数据(单次维修成本波动率) - 续保漏斗转化节点时序 - **验证方法**: 使用 $\text{Cox比例风险模型}$ 验证分级与流失率的相关性($p<0.01$) --- ### **方向二:基于强化学习的个性化续保策略生成** **创新点**:将续保场景建模为马尔可夫决策过程(MDP) - **状态空间** $S$:客户分级 + 历史互动记录 + 市场促销密度 - **动作空间** $A$: ```math A = \begin{cases} \text{折扣率}\delta \in [0.85,1.0] \\ \text{增值服务包}\kappa \in \{ \text{道路救援, 代驾, ...} \} \end{cases} ``` - **奖励函数设计**: $$ R = \underbrace{\gamma_1 \cdot \text{续保利润}}_{\text{短期收益}} + \underbrace{\gamma_2 \cdot \Delta \text{CLV}}_{\text{长期价值}} $$ 通过 $\text{Deep Q-Learning}$ 优化策略网络[^2] --- ### **方向三:客户流失风险的因果推断模型** **突破性思路**:识别影响续保的 *因果性* 因素而非相关性 - **采用框架**: - $\text{贝叶斯网络}$ 构建维修响应延迟→客户满意度→续保决策的因果链 - $\text{反事实推理}$ 估计干预效果(例:若将C类客户响应速度提升20%,留存率变化) - **数据要求**: 需包含干预对照实验数据(如A/B测试的渠道策略) --- ### **工程落地关键指标** | 模块 | 验证指标 | 目标值 | |---------------------|----------------------------|-------------| | 动态分级模型 | Gini系数 | >0.65 | | 强化学习策略 | 策略价值函数收敛性 | 200次迭代内 | | 因果模型 | 平均处理效应(ATE)显著性 | $p<0.05$ | --- **
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值