机器学习最佳实践指南
1. 特征工程
1.1 特征转换
1.1.1 二值化
二值化是将数值特征转换为二值特征的过程。可以使用 sklearn.preprocessing 中的 Binarizer 类实现。示例代码如下:
from sklearn.preprocessing import Binarizer
X = [[4], [1], [3], [0]]
binarizer = Binarizer(threshold=2.9)
X_new = binarizer.fit_transform(X)
print(X_new)
输出结果:
[[1]
[0]
[1]
[0]]
1.1.2 离散化
离散化是将数值特征转换为具有有限可能值的分类特征的过程。二值化可以看作是离散化的一种特殊情况。例如,可以根据年龄生成年龄组特征,如“18 - 24”、“25 - 34”、“34 - 54”和“55 +”。
1.1.3 交互特征
交互特征包括两个数值特征的求和、乘法或其他运算,以及两个分类特征的联合条件检查。例如,可以使用每周访问次数和每周购买产品数量来生成每次访问购买产品数量的特征;兴趣和职业(如体育和工程师)可以形成“职业 AND 兴趣”(如对体育感兴趣的工程师)。
1.1.4 多项式变换
多项式变换是生成多项式和交互特征
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



