python 分组统计图(以Titanic数据集为例)

根据Titanic数据集,通过图表分析发现,乘客的生存状况与舱位等级显著相关,舱位等级越高,生存率越低,死亡率随之增高。图表展示的初步结论有待进一步优化以呈现更精确的比例关系。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

#导入所需的包
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
% matplotlib inline
#读取Titanic数据
data=pd.read_csv('E:\\Users\\Administrator\\Desktop\\pythonNotebook\\train.csv',index_col=0)#把源数据第一列设为索引
#查看数据样式
data.head()
#在作图之前最好先看缺失值等的情况。
print(data.isnull().sum())
#画条形图,反映生存与否和所在舱位等级的关系。
#需要作出两者之间的列表 crosstab.
cross_table=pd.crosstab(data['Pclass'],data['Survived'])
#有了这个表就好做多了。直接画条形图。
cross_table.plot(kind='bar')
#同理,可以作出性别和生存与否的关系
survived_sex=pd.crosstab(data.Sex,data.Survived)
survived_sex.plot(kind='bar')          
Survived      0
Pclass        0
Name          0
Sex           0
Age         177
SibSp         0
Parch         0
Ticket        0
Fare          0
Cabin       687
Embarked      2
dtype: int64

Python中,我们可以使用pandas库来处理TITANIC数据集,这是一个经典的机器学习数据集,包含了泰坦尼克号乘客的一些基本信息和生存结果。以下是分析该数据集的一般步骤: 1. **导入所需库**:首先,我们需要导入`pandas`用于数据处理,`numpy`用于数值计算,以及`matplotlib`或`seaborn`进行数据可视化。 ```python import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns ``` 2. **加载数据**:使用`pandas.read_csv()`函数从CSV文件中读取数据。 ```python titanic_data = pd.read_csv('titanic.csv') ``` 3. **初步探索**:查看数据的基本信息,如列名、行数、数据类型等。 ```python titanic_data.head() # 查看前几行数据 titanic_data.info() # 获取关于每列的数据统计 ``` 4. **数据清洗**:检查缺失值,处理异常值,如填充、删除或替换缺失数据。 ```python # 检查缺失值 titanic_data.isnull().sum() # 处理缺失值(这里仅举一titanic_data['Age'].fillna(titanic_data['Age'].mean(), inplace=True) ``` 5. **数据预处理**:将分类变量编码成数字(one-hot encoding或label encoding),转换为目标变量(Survived)为二进制形式。 6. **特征选择和创建新特征**:根据领域知识,选择有意义的特征并创建新的关联特征。 7. **描述性统计分析**:计算各特征的描述性统计量,如平均值、中位数、众数等,了解变量分布。 8. **数据可视化**:使用matplotlib或seaborn绘制图表,比如直方图、散点图、箱线图,展示特征间的相关性和分布情况。 9. **建立模型**:选择适当的算法(如线性回归、决策树、随机森林或深度学习模型),训练模型预测乘客是否存活。 10. **评估模型**:使用交叉验证和混淆矩阵等工具评估模型性能,并调整参数优化模型。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值