决策树Titanic

本文介绍了如何使用Python和scikit-learn库中的RandomForestClassifier在Kaggle的Titanic数据集上进行机器学习,包括特征选择、独热编码、模型训练和预测,以及决策树的构建原理和优缺点分析。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Titanic - Machine Learning from Disaster | Kaggle

train_data=pd.read_csv("/kaggle/input/titanic/train.csv")
 

# 从sklearn.ensemble模块导入RandomForestClassifier类
from sklearn.ensemble import RandomForestClassifier

# 从train_data数据集中提取Survived列,即乘客是否生存的结果
y = train_data["Survived"]

# 定义要用于训练的特征列名列表
features = ["Pclass", "Sex", "SibSp", "Parch"]

# 使用pandas的get_dummies函数对训练数据集中的特征进行独热编码
X = pd.get_dummies(train_data[features])

# 对测试数据集也进行同样的独热编码处理
X_test = pd.get_dummies(test_data[features])

# 创建一个随机森林分类器实例,设置参数:100棵树,最大深度为5,随机状态为1
model = RandomForestClassifier(n_estimators=100, max_depth=5, random_state=1)

# 训练模型,使用训练数据集的特征X和生存结果y
model.fit(X, y)

# 使用训练好的模型对测试数据集X_test进行生存预测
predictions = model.pr
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值