机器学习中的特征选择与专家知识运用
1. 自动特征选择
在机器学习中,特征选择是一个重要的步骤,它可以帮助我们去除噪声特征,提高模型性能,同时减少计算成本。以下将介绍几种常见的自动特征选择方法。
1.1 单变量特征选择
单变量特征选择通过对每个特征进行单独的统计测试,来判断其与目标变量的相关性,然后选择相关性较高的特征。通过可视化掩码可以发现,大部分选定的特征是原始特征,并且大部分噪声特征被移除,但原始特征的恢复并不完美。
以下是比较逻辑回归在所有特征和仅选定特征上性能的代码:
from sklearn.linear_model import LogisticRegression
# transform test data:
X_test_selected = select.transform(X_test)
lr = LogisticRegression()
lr.fit(X_train, y_train)
print("Score with all features: %f" % lr.score(X_test, y_test))
lr.fit(X_train_selected, y_train)
print("Score with only selected features: %f" % lr.score(X_test_selected, y_test))
运行结果如下:
| 特征类型 | 得分 |
| ---- | ---- |
| 所有特征 | 0.929825 |
| 仅选定特征 |
特征选择与专家知识融合
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



