pandas学习之数据的建模与评价

前面几天已经将数据全部处理完ta毕,并熟悉了pandas处理数据的基本操作。最后就使用sklearn库来最终解决这个问题,分析测试集中哪些人可以存活。

首先将训练集做去空处理,清理掉训练集中的空数据。pandas中,mean()函数就是求平均值的意思。

 之后再对数据进行转码,转换为one-hot便于分析。

如果数据集本身并不是随机取样的,比如按照时间先后收集或者先收集高等舱再收集低等舱,就需要随机选取,使得各种样本充分混合。

切割数据集方面,python语法允许用元组同时给多个元素赋值,而sklearn为我们提供了一个一步到位的函数train_test_split()。

由于问题训练集已知结果,而且预测的值只有有限种(2种)可能,所以属于“分类”问题。对于此问题,可以使用决策树或者Logistic回归的方法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值