文章目录
一、准备工作(导入数据)
#导入必备数据分析库
import pandas as pd
import numpy as np
#导入excel数据文件
df = pd.DataFrame(pd.read_excel("TMao.xlsx"))
#导入csv数据文件
# df = pd.DataFrame(pd.read_csv("Attributes.csv",header=1,sep=',')) #表示第一行为字段名
注意:
- 需要安装openpyxl库才可以读取xlsx文件,使用
pip install openpyxl
- 以上导入文件的语句用一句即可。
二、数据查看
1、查看数据表的基本信息
(根据需要对数据进行总体上的查看,建议不要全部执行,而是一条一条依次执行查看效果)
#维度查看:返回几行几列,注意不要加()
df.shape
#查看列名称:类似于SQL中的desc
df.columns
#数据表基本信息(维度、列名称、数据格式、所占空间等)
df.info
#查看每一列数据的格式
df.dtypes
#某一列数据的格式
df['订单付款时间'].dtype
df['订单金额'].dtype
查看列名df.columns:
2、空值的与缺失值概念(NAN、NAT)
空值:在pandas中的空值是"",也叫空字符串;
缺失值:在dataframe中为NAN或者NAT(缺失时间),在series中为none或者nan
3、查看所有值是否为空值
(所有值全部列出来,不实用的操作,这里简单介绍一下用法)
#查看是否为空值
df.isnull()
#某一列的空值
df["订单付款时间"].isnull()
4、判断是否存在空值
# 查看所有值中是否存在空值
df.isnull().any()
# 判断某列是否存在空值
df[