15、机器学习中的特征工程与模型优化-优快云博客

本文链接：https://blog.youkuaiyun.com/python/article/details/152549780

机器学习中的特征工程与模型优化

1. 纽约出租车数据建模案例

1.1 简单分类器表现不佳

首先使用简单分类器对纽约出租车数据进行建模，绘制其 ROC 曲线。结果显示，该分类器的表现很差，留出集的 AUC 仅为 0.51，这表明该模型的预测效果与随机猜测无异，基本没有实际用途。以下是 ROC 曲线的相关信息：
| 指标 | 值 |
| ---- | ---- |
| AUC | 0.51 |

1.2 采用非线性分类器

由于线性模型在该数据集上表现不佳，因此尝试使用非线性算法——随机森林。随机森林在处理现实世界数据集时具有较高的准确性。以下是构建随机森林模型的代码：

from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import roc_curve, roc_auc_score
from pylab import *
rf = RandomForestClassifier(n_estimators=100)
rf.fit(data.ix[train_idx,feats], data['tipped'].ix[train_idx])
preds = rf.predict_proba(data.ix[test_idx,feats])
fpr, tpr, thr = roc_curve(data['tipped'].ix[test_idx], preds[:,1])
auc = roc_auc_score(data['tipped'].ix[test_idx