Hands-on data analysis学习分享:数据加载及探索性数据分析

本文介绍了如何使用Python进行数据操作,包括查看DataFrame基本信息、删除数据、筛选条件、重置索引和描述性统计。针对数据初步分析,涵盖了中文表头转换、数据探索、排序分析以及统计描述。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

 python操作

 关于拿到数据后该如何着手进行初步分析


文是学习开源项目‘hands-on data analysis’之后的个人总结,总结内容为平时学习的查漏补缺及如何着手分析,如下


项目链接:https://github.com/datawhalechina/hands-on-data-analysis

数据集下载:https://www.kaggle.com/c/titanic/overview


 python操作

 

  1. 查看数据的基本信息可以用到:DataFrame.info()——返回有关DataFrame的索引数据类型和列、非空值计数和内存使用情况等


    在jupyter.notebook中用DataFrame.info?查看具体的用法


     

  2. 删除数据时,del与drop不同:DataFrame.drop方法仅将指定的列或行隐藏,而显示其他数据;若想完全删除指定的数据,需设置inplace=True

  3. 多条件组合筛选:表格中红色字的条件可任意设置

    DataFrame[(DataFrame.column名>某个值) & (DataFrame.column名<某个值)] ——设置多个条件筛选值,且的关系,即交集
    DataFrame[(DataFrame.column名>某个值) | (DataFrame.column名<某个值)]——设置多个条件筛选值,或的关系,即并集
  4. DataFrame.reset_index()默认保留原行标签为第一列;若设置参数drop=True,则删除原行标签;适用于某个DataFrame是从另一DataFrame中选取的部分数据

  5. describe()的其他用法:DataFrame['column名'].describe()——返回某列描述数值型数据列的count、均值、方差、最小值、1/4分位数、中位数、最大值

 关于拿到数据后该如何着手进行初步分析

  1. 载入数据后,若数据为列标签(表头)为英文,可以考虑将其改为中文,便于熟悉数据
  2. 初步观察,即查看数据:df.info(),df.head(),df.tail(),df.isnull().head()
  3. 保存/导出改变的数据到新文件(中文乱码问题:设置encoding='GBK'或encoding='utf-8')
  4. 载入新文件后,任选两列数据同时降序或升序排序,分析两者间的关系注意:这里两列数据不一定是原数据中已有的列,也可以是某几列数据的求和列等)
  5. DataFrame.describe()或DataFrame['column名'].describe()函数查看数据基本统计信息:计数、均值、标准差、最值、四分位数、中位数,并利用这些数据进行初步分析

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值