由于现实生活中获取到的数据并不是我们最终想要的形式,可能会出现空缺值,离群点,脏数据等情况,因此在进行数据分析之前需要先进行数据的预处理。
在进行数据预处理之前需要先进行基础的数据查看,此时用到python中的pandas库
基础的信息查看包括,数据的行数列数信息查看、数据的类型(例如,整型、字符型等)的查看、是否有空缺值(null)的查看,数值型数据的描述性信息的查看、数据的前几行信息的查看、以及基础的数据增加一列的操作等,具体代码如下。
#导入pandas库
import pandas as pd
#注意默认的,需要读取的csv的文件的编码方式需要是utf-8形式
content=pd.read_csv('需要读取的文件路径')
#显示读取的csv文件的前几行数据的信息
#注意 想要显示前几行信息,括号就写几行
content.head(10)
#展示读取的数据中数值型数据的基本统计信息
content.describe()
#展示读取的所有数据的基本统计信息
content.describe(include="all")
#展示读取的数据中的某一列的基本统计信息
content['想要描述的那一列的名称'].describe()
#显示读取的数据的数据格式、行数列数、是否非空以及占用内存
content.info()
#查看数据的行数以及列数,第一个数据是行数,第二个数据是列数
content.shape
#提取数据的哪几行哪几列数据,赋给新的变量
new=content.iloc[开始的行号:结束的行号(注意取不到),开始的列号:结束的列号(注意取不到)]
#显示数据的类型
content.dtypes
#将某一列的数据类型进行转化
content['想要转化的列名'].astype('想要转化成的类型')
#给读取成dataframe类型的文件新加一列
content['新加列的列名']=一个与原文件同样长度的列表