22、从不完整数据中进行预测:泰坦尼克号数据集的决策树分析

从不完整数据中进行预测:泰坦尼克号数据集的决策树分析

在数据分析和机器学习领域,我们常常会遇到需要从有限且不完整的数据中做出预测的情况。本文将以泰坦尼克号乘客数据集为例,逐步介绍如何利用决策树进行分类预测,并解决数据中存在的一些问题。

决策树与猜谜游戏的相似性

想象一个猜谜游戏,一个人想出一个事物,另一个人通过不断问“是”或“否”的问题来猜出这个事物。在这个游戏中,有效的策略是先问能排除大量可能答案的问题,然后随着信息的增加逐渐缩小问题的范围。决策树的工作方式与此类似,它通过一系列问题来模仿人类的诊断过程,快速排除错误答案,并根据已有的信息决定下一个问题。在这个过程中,特征可以看作是关于观察对象特征的问题。决策树会从训练集中学习,分析数据以确定在给定已知信息的情况下,哪个特征能提供最多的信息。

泰坦尼克号数据集的挑战与意义

我们使用的泰坦尼克号数据集是一个经典的数据集。我们的目标是根据乘客的人口统计信息来预测他们的命运。这个问题具有代表性,类似于许多实际问题,如预测网站访客是否会点击链接,或预测客户会选择哪种订单规模。此外,该数据集的数据情况也很典型,它包含了各种类型的特征,如数值型(票价)、分类型(性别),并且存在数据缺失的情况。同时,由于泰坦尼克号灾难本身的历史意义,分析这个数据集也能让我们从数据中获得一些有趣的见解。

了解数据集

我们使用的数据集来自Kaggle竞赛“泰坦尼克号:从灾难中学习机器学习”,也可以在其他网站找到变体。为了方便,我们将数据集上传到了OneDrive。数据集是一个名为 titanic.csv 的CSV文件,有12列,每列都有明确的含义。我们可以使用CSV

基于模拟退火的计算器 在线运行 访问run.bcjh.xyz。 先展示下效果 https://pan.quark.cn/s/cc95c98c3760 参见此仓库。 使用方法(本地安装包) 前往Releases · hjenryin/BCJH-Metropolis下载最新 ,解压后输入游戏内校验码即可使用。 配置厨具 已在2.0.0弃用。 直接使用白菜菊花代码,保留高级厨具,新手池厨具可变。 更改迭代次数 如有需要,可以更改 中39行的数字来设置迭代次数。 本地编译 如果在windows平台,需要使用MSBuild编译,并将 改为ANSI编码。 如有条件,强烈建议这种本地运行(运行可加速、可多次重复)。 在 下运行 ,是游戏中的白菜菊花校验码。 编译、运行: - 在根目录新建 文件夹并 至build - - 使用 (linux) 或 (windows) 运行。 最后在命令行就可以得到输出结果了! (注意顺序)(得到厨师-技法,表示对应新手池厨具) 注:linux下不支持多任务选择 云端编译已在2.0.0弃用。 局限性 已知的问题: - 无法得到最优解! 只能得到一个比较好的解,有助于开阔思路。 - 无法选择菜品数量(默认拉满)。 可能有一定门槛。 (这可能有助于防止这类辅助工具的滥用导致分数膨胀? )(你问我为什么不用其他语言写? python一个晚上就写好了,结果因为有涉及json读写很多类型没法推断,jit用不了,算这个太慢了,所以就用c++写了) 工作原理 采用两层模拟退火来最大化总能量。 第一层为三个厨师,其能量用第二层模拟退火来估计。 也就是说,这套方法理论上也能算厨神(只要能够在非常快的时间内,算出一个厨神面板的得分),但是加上厨神的食材限制工作量有点大……以后再说吧。 (...
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值