机器学习中的特征选择、模型持久化与支持向量机应用
1. 特征选择
特征选择可被视为参数调优在特征层面的类比。如同通过交叉验证找到合适的通用参数一样,我们也能找出合适的特征子集。这涉及多种方法,其中最简单的是单变量选择,其他方法则涉及特征组合。
特征选择还有一个额外好处,即减轻数据收集的负担。例如,若在一小部分数据上构建了模型,后续要扩展到整个数据集进行预测时,特征选择可减少数据收集的工程工作量。
1.1 单变量特征选择
- 准备数据 :
from sklearn import datasets
X, y = datasets.make_regression(1000, 10000)
- 计算得分和 p 值 :
from sklearn import feature_selection
f, p = feature_selection.f_regression(X, y)
这里的 f 是每个单特征线性模型的 f 得分, p 是与 f 值相关的 p 值。在统计学中,p 值是比当前测试统计量更极端值的概率,这里 f 值就是测试统计量。
超级会员免费看
订阅专栏 解锁全文
1325

被折叠的 条评论
为什么被折叠?



