目录
文是学习开源项目‘hands-on data analysis’之后的个人总结,总结内容为平时学习的查漏补缺及如何着手分析,如下
项目链接:https://github.com/datawhalechina/hands-on-data-analysis
数据集下载:https://www.kaggle.com/c/titanic/overview
python操作
-
查看数据的基本信息可以用到:DataFrame.info()——返回有关DataFrame的索引数据类型和列、非空值计数和内存使用情况等
在jupyter.notebook中用DataFrame.info?查看具体的用法
-
删除数据时,del与drop不同:DataFrame.drop方法仅将指定的列或行隐藏,而显示其他数据;若想完全删除指定的数据,需设置inplace=True
-
多条件组合筛选:表格中红色字的条件可任意设置
DataFrame[(DataFrame.column名>某个值) & (DataFrame.column名<某个值)] ——设置多个条件筛选值,且的关系,即交集 DataFrame[(DataFrame.column名>某个值) | (DataFrame.column名<某个值)]——设置多个条件筛选值,或的关系,即并集 -
DataFrame.reset_index():默认保留原行标签为第一列;若设置参数drop=True,则删除原行标签;适用于某个DataFrame是从另一DataFrame中选取的部分数据
-
describe()的其他用法:DataFrame['column名'].describe()——返回某列描述数值型数据列的count、均值、方差、最小值、1/4分位数、中位数、最大值
关于拿到数据后该如何着手进行初步分析
- 载入数据后,若数据为列标签(表头)为英文,可以考虑将其改为中文,便于熟悉数据
- 初步观察,即查看数据:df.info(),df.head(),df.tail(),df.isnull().head()
- 保存/导出改变的数据到新文件(中文乱码问题:设置encoding='GBK'或encoding='utf-8')
- 载入新文件后,任选两列数据同时降序或升序排序,分析两者间的关系(注意:这里两列数据不一定是原数据中已有的列,也可以是某几列数据的求和列等)
-
用DataFrame.describe()或DataFrame['column名'].describe()函数查看数据基本统计信息:计数、均值、标准差、最值、四分位数、中位数,并利用这些数据进行初步分析