Hands-on data analysis学习分享：数据加载及探索性数据分析

最新推荐文章于 2025-04-29 15:28:57 发布

KikuWong

最新推荐文章于 2025-04-29 15:28:57 发布

阅读量289

点赞数

文章标签： python 数据分析

本文链接：https://blog.youkuaiyun.com/KikuWong/article/details/117932510

版权

本文介绍了如何使用Python进行数据操作，包括查看DataFrame基本信息、删除数据、筛选条件、重置索引和描述性统计。针对数据初步分析，涵盖了中文表头转换、数据探索、排序分析以及统计描述。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文是学习开源项目‘hands-on data analysis’之后的个人总结，总结内容为平时学习的查漏补缺及如何着手分析，如下

python操作

查看数据的基本信息可以用到：DataFrame.info()——返回有关DataFrame的索引数据类型和列、非空值计数和内存使用情况等

在jupyter.notebook中用DataFrame.info?查看具体的用法
删除数据时，del与drop不同：DataFrame.drop方法仅将指定的列或行隐藏，而显示其他数据；若想完全删除指定的数据，需设置inplace=True

多条件组合筛选：表格中红色字的条件可任意设置

DataFrame[(DataFrame.column名>某个值) & (DataFrame.column名<某个值)] ——设置多个条件筛选值，且的关系，即交集

DataFrame[(DataFrame.column名>某个值) | (DataFrame.column名<某个值)]——设置多个条件筛选值，或的关系，即并集

DataFrame.reset_index()：默认保留原行标签为第一列；若设置参数drop=True，则删除原行标签；适用于某个DataFrame是从另一DataFrame中选取的部分数据
describe()的其他用法：DataFrame['column名'].describe()——返回某列描述数值型数据列的count、均值、方差、最小值、1/4分位数、中位数、最大值

载入数据后，若数据为列标签（表头）为英文，可以考虑将其改为中文，便于熟悉数据
初步观察，即查看数据：df.info()，df.head()，df.tail()，df.isnull().head()
保存/导出改变的数据到新文件（中文乱码问题：设置encoding='GBK'或encoding='utf-8'）
载入新文件后，任选两列数据同时降序或升序排序，分析两者间的关系（注意：这里两列数据不一定是原数据中已有的列，也可以是某几列数据的求和列等）
用DataFrame.describe()或DataFrame['column名'].describe()函数查看数据基本统计信息：计数、均值、标准差、最值、四分位数、中位数，并利用这些数据进行初步分析