DW数据分析第二课

本文介绍了数据分析的基础操作,包括如何逐块读取大型数据集以减轻服务器负担,修改表头,检查数据统计特征,处理空值,以及如何保存数据。通过实际案例,读者可以学习到关键的数据预处理技巧。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据分析第二课

  • 逐块读取:每1000行为一个模块读取数据
chunker =pd.read_csv('train.csv',chunksize=1000)

思考:逐块读取主要应对数据量特别大的,一次性全部读取,服务器是吃不消,所以就有必要使用分块读取;

  • 将表头改为中文
df = pd.read_csv('train.csv', names=['乘客ID', '是否获救','舱位等级','姓名', '性别', '年龄', '兄弟姐妹个数', '父母子女个数', '船票号码', '票价', '客舱号', '登船港口'], index_col='乘客ID', header=0)
df.head()

index_col 设置作为序列的列
hearer 设置作为表头的行

  • 初步观察:查看数据基本的统计特征
df.info

将数据全部罗列出来,而没有格式

df.info()

将数据的基本信息输出,是否有空值;

  • 着重查看数据中是否有空值;
df.isnull()

输出全部数据,为空的地方标记为true;
也可以只输出部分行;

df.isnull().head()
  • 保存数据
df.to_csv('train_chinese.csv')

小结

非常非常基础的小部分学完了~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值