机器学习中的特征选择、模型持久化与支持向量机应用
1. 特征选择
1.1 特征选择概述
特征选择类似于参数调优,我们可以通过交叉验证找到合适的通用特征子集。其中,单变量选择是最简单的方法,其他方法则涉及特征组合。此外,特征选择还能减轻数据收集的负担。
1.2 单变量特征选择
1.2.1 准备数据
from sklearn import datasets
X, y = datasets.make_regression(1000, 10000)
1.2.2 计算F值和P值
from sklearn import feature_selection
f, p = feature_selection.f_regression(X, y)
F值是与每个线性模型相关的得分,P值是与F值相关的概率。我们希望P值尽可能小,因此选择P值小于0.05的特征。
1.2.3 选择特征
import numpy as np
idx = np.arange(0, X.shape[1])
features_to_keep = idx[p < .05]
len(features_to_keep)
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



