决策树Titanic

Cherish永恒

已于 2024-03-26 19:00:27 修改

阅读量1.6k

点赞数 32

分类专栏：机器学习文章标签：决策树算法机器学习

于 2024-03-26 18:59:30 首次发布

本文链接：https://blog.youkuaiyun.com/qq_55430793/article/details/137054389

版权

本文介绍了如何使用Python和scikit-learn库中的RandomForestClassifier在Kaggle的Titanic数据集上进行机器学习，包括特征选择、独热编码、模型训练和预测，以及决策树的构建原理和优缺点分析。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Titanic - Machine Learning from Disaster | Kaggle

train_data=pd.read_csv("/kaggle/input/titanic/train.csv")

# 从sklearn.ensemble模块导入RandomForestClassifier类
from sklearn.ensemble import RandomForestClassifier

# 从train_data数据集中提取Survived列，即乘客是否生存的结果
y = train_data["Survived"]

# 定义要用于训练的特征列名列表
features = ["Pclass", "Sex", "SibSp", "Parch"]

# 使用pandas的get_dummies函数对训练数据集中的特征进行独热编码
X = pd.get_dummies(train_data[features])

# 对测试数据集也进行同样的独热编码处理
X_test = pd.get_dummies(test_data[features])

# 创建一个随机森林分类器实例，设置参数：100棵树，最大深度为5，随机状态为1
model = RandomForestClassifier(n_estimators=100, max_depth=5, random_state=1)

# 训练模型，使用训练数据集的特征X和生存结果y
model.fit(X, y)

# 使用训练好的模型对测试数据集X_test进行生存预测
predictions = model.pr