今天我们来聊一聊如果解读一个特征对模型的影响~
说起特征对模型的影响,我们需要看两方面:
- 一是通过PermutationImportance函数查看特征重要性(Feature Importance),这个是研究某一个特征对模型预测影响的大小;
- 另一个是部分依赖图,反映这个特征如何影响了预测。
上一篇推送我们已经介绍了特征重要性的知识,今天重点聊一聊部分依赖图的原理和应用。
介绍
PDP会展示一个或两个特征对模型预测的边际效应,我们可以通过绘制特征和预测目标之间的一维关系或二维关系图来了解特征与目标之间的关系。
比如我们想知道,保持其他所有特征不变,哪个特征对留存的提升影响最大?在两组不同人群上,模型预测出的健康水平差异是由他们的负债水平引起的,还是其他原因?
类似于线性回归或者逻辑回归中的系数,可以解释各个特征对模型结果的影响,部分依赖图是对复杂模式中特征的影响进行描绘。
工作原理
与 permutation importance 相似,Partial Dependence Plots 也是在训练好(拟合好的)的模型上进行的。
工作过程:多次改变某一特征的数值,从而产生一系列的预测结果。比如研究年龄特征会不会对留存有影响,我们可以把年龄段从小到大排列,一次看不同年龄段得到的预测结果,以年龄为横坐标,相应的预测输出为纵轴,可以用pdp_plot画出来。