机器学习中的特征工程与应用
1. 特征预处理实验
在机器学习中,特征预处理是一个关键步骤。以Spark ML框架下的逻辑回归算法为例,我们对特征进行了不同的预处理操作,并观察其对均方根误差(RMSE)的影响。
首先,我们来看代码实现:
def to_example(raw_data_point):
def clip(x):
if (x < -1):
return -1
if (x > 1):
return 1
return x
return LabeledPoint(
float(raw_data_point['ARR_DELAY'] < 15), # ontime
[
clip(raw_data_point['DEP_DELAY'] / 30),
clip((raw_data_point['DISTANCE'] / 1000) - 1),
clip((raw_data_point['TAXI_OUT'] / 10) - 1),
]
)
我们进行了以下实验,结果如下表所示:
| 实验编号 | 转换方式 | RMSE | 百分比改进 | 是否保留转换 |
| ---- | ---- | ---- | ---- | ---- |
| 1(为方便重复) | DEP_DELAY、DISTANCE、TAXI
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



