15、机器学习中的特征工程与模型优化

机器学习中的特征工程与模型优化

1. 纽约出租车数据建模案例

1.1 简单分类器表现不佳

首先使用简单分类器对纽约出租车数据进行建模,绘制其 ROC 曲线。结果显示,该分类器的表现很差,留出集的 AUC 仅为 0.51,这表明该模型的预测效果与随机猜测无异,基本没有实际用途。以下是 ROC 曲线的相关信息:
| 指标 | 值 |
| ---- | ---- |
| AUC | 0.51 |

1.2 采用非线性分类器

由于线性模型在该数据集上表现不佳,因此尝试使用非线性算法——随机森林。随机森林在处理现实世界数据集时具有较高的准确性。以下是构建随机森林模型的代码:

from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import roc_curve, roc_auc_score
from pylab import *
rf = RandomForestClassifier(n_estimators=100)
rf.fit(data.ix[train_idx,feats], data['tipped'].ix[train_idx])
preds = rf.predict_proba(data.ix[test_idx,feats])
fpr, tpr, thr = roc_curve(data['tipped'].ix[test_idx], preds[:,1])
auc = roc_auc_score(data['tipped'].ix[test_idx
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值