Selecting good features – Part IV: stability selection, RFE and everything side by side
在我以前的文章中,我研究了单变量方法、线性模型和正则化以及随机森林的特征选择。
在本文中,我将研究另外两种方法:稳定性选择和递归特征消除(RFE),这两种方法都可以考虑包装方法。它们都建立在其它(基于模型的)选择方法的基础上,如回归或SVM,在不同的数据子集上建立模型,并从集合中提取排名。
作为总结,我将运行前面讨论的所有方法,以突出它们彼此的优缺点和陷阱。
稳定性选择
稳定性选择是一种相对新颖的特征选择方法,它基于子采样并结合选择算法(可以是回归、支持向量机或其他类似的方法)。高层次的思想是在不同的数据子集和不同的特征子集上应用特征选择算法。在重复多次处理之后,选择结果可以被聚合,例如,通过检查一个特征在被检查的特征子集中被选择为重要特征的次数。我们可以期望强大的特性具有接近100%的分数,因为它们总是尽可能地被选择。较弱、但仍然相关的特征也将具有非零分数,因为当在当前选择的子集中不存在更强的特征时将选择它们,而无关的特征将具有分数(接近)零,因为它们永远不会在所选择的特征中。
Skleak实现了随机套索和随机物流回归类中的稳定性选择。
from sklearn.linear_model import RandomizedLasso