子集搜索大法
使用前向or后向方法对特征集合进行搜索,确定最佳的特征子集。
优点:无
缺点:
贪心算法,实际上搜索到的子集并不一定是最佳的,是局部极小值。
耗时间且效果不佳,上千个特征你试试。
过滤式选择
即先选择特征,再确定模型。首先根据某种方法对所有特征进行打分,最后根据得分确定一定数量的特征,确定特征集。
优点:还行
缺点:
打分方法很难确定,且不同模型对特征要求不同,筛选的特征不见得适合所有模型。
包裹式选择
先确定N个特征子集,一次进行交叉验证,选择效果最佳的特征子集。
优点:效果好
缺点:time is money。
嵌入式选择与L1正则化
先不删除任何一个特征,在模型中加入L1正则化,利用L1正则化稀疏特征矩阵,筛选特征。