机器学习中的特征工程与模型优化
1. 纽约出租车数据建模案例
1.1 简单分类器表现不佳
首先使用简单分类器对纽约出租车数据进行建模,绘制其 ROC 曲线。结果显示,该分类器的表现很差,留出集的 AUC 仅为 0.51,这表明该模型的预测效果与随机猜测无异,基本没有实际用途。以下是 ROC 曲线的相关信息:
| 指标 | 值 |
| ---- | ---- |
| AUC | 0.51 |
1.2 采用非线性分类器
由于线性模型在该数据集上表现不佳,因此尝试使用非线性算法——随机森林。随机森林在处理现实世界数据集时具有较高的准确性。以下是构建随机森林模型的代码:
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import roc_curve, roc_auc_score
from pylab import *
rf = RandomForestClassifier(n_estimators=100)
rf.fit(data.ix[train_idx,feats], data['tipped'].ix[train_idx])
preds = rf.predict_proba(data.ix[test_idx,feats])
fpr, tpr, thr = roc_curve(data['tipped'].ix[test_idx], preds[:,1])
auc = roc_auc_score(data['tipped'].ix[test_idx
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



