干货来了!菜鸟入门最经典的机器学习项目,面试必考!

本文通过分析Kaggle上的泰坦尼克号数据集,介绍了一个经典机器学习项目,包括数据认知、特征工程、模型构建等步骤。通过对乘客等级、性别、年龄等特征的分析,揭示了生存率的关联,并展示了如何处理数据、创建新特征以提高模型性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

今天小编带领大家完整的走完一个简单机器学习小的实战项目,这个项目是Kaggle上的经典项目《泰坦尼克号之灾》,也是面试经常考的项目。大家对于泰坦尼克号一定不会陌生,但是不知道大家想过没有,泰坦尼克号上生还的都是哪些人,他们都有什么样的特征呢?

今天小编将从以下的几个点进行分析:

  • 对于数据的认知

  • 特征工程

  • 进行模型的构建


1

对于数据认知

首先为什么要讲数据的认知,只有对数据进行充分的了解,你才能从大量的冰冷的数据中发现潜在的规律;只有对数据进行充分的认识,你才能从数据中提取有价值的信息。没有对于数据的了解,其他的都是空谈。那么我们首先来看一下,我们所要处理的数据吧。

数据一共有12个维度,也就是12个特征,分别对应如下:

PassengerId => 乘客的ID

Survived=> 乘客是否存活

Pclass => 乘客的等级(1/2/3等舱位)

Name => 乘客姓名

Sex => 性别

Age => 年龄

SibSp => 堂兄弟/妹个数

Parch => 父母与小孩个数

Ticket => 船票信息

Fare => 船票的价格

Cabin => 船舱号

Embarked => 登船港口

其中Survived变量是我们需要求的变量。数据中像是Sex、Embarked属于类目型数据,数值类型的数据有:Age,Fare,SibSphe Parch。

2

从数据分布中获取信息

从数据的分布信息中,我们可以得到一些统计信息,帮助我们更快的对数据集有一个整体的理解。

从上面的表格中,我们可以知道训练样本集中包含样本891例,891例中最终幸存的概率是38.4%左右;,二等舱和三等舱的人要多于一等舱的人;乘客的平均年龄为29.7岁左右;有超过75%的人没有与父母或者是子女一起登上泰坦尼克号。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值