数据信息
1、查看数据内容
data.head() #查看前5条,括号里可以写明你想看的条数,默认5条
data.head(3) #查看前三条
data.tail() #查看尾部5条,括号里可以写明你想看的条数,默认5条
data.sample(5) # 随机查看5条,括号里可以写明你想看的条数
2、从整体角度查看数据
data.shape # 查看行数和列数
data.info() # 查看索引、数据类型和内存信息等基础信息
data.describe() # 查看数值型列的汇总统计
data.dtypes # 查看各字段类型
data.axes # 显示数据行和列名
data.ndim #维度
data.columns # 列名
data.index # 索引对象
data.values # array(<所有值的列表矩阵>)
#查看每列是否有缺失值
data.isnull().any()
# 检查data每列的缺失值的占比
data.apply(lambda x : sum(x.isnull())/len(x), axis=0,)
3、数据的选择
import pandas as pd
d4 = pd.DataFrame({"姓名":["慕晨风","小慕","微凉","苏浅","张三","李四"],
"性别": ["男", "男", "女","女","男","男"],
"age": [23, 24, 21,23,22,20],
"学号":["02","03","04","102","103","104"],
"班级":["1班","1班","1班","2班","2班","2班"],
"语文":[90,99,87,100,101,120],
"数学":[130,120,121,98,89,97],
"英语":[87,85,61,32,77,88]
})
d4.set_index("学号",inplace=True)
print(d4)
1、切片选择列
单列
#选择单列
data["name"]
data.name
#以上两者是等价的,依照个人习惯选一种就行
多列
data[['name','age']] #注意是 二维
注意:
data[["name"]] 返回的是一个 DataFrame
data["name"] 返回的是 Series
2、按轴标签选择行和列
语法:
data.loc[start:end:step,start:end:step]
data.loc[行索引范围,列索引范围]
逗号前面是行,逗号后面是列,步长默认为 1
d4.set_index("学号",inplace=True)
print(d4)
print(d4.loc["02":"101","姓名":"班级"])
print(d4.loc["02":"103",["姓名","班级"]])
print(d4.loc[:,"语文":"英语"])
print(d4.loc["03":"102"])
print(d4.loc[::2]) # 步长为 2
3、按数字索引选择行和列
语法:
data.iloc[start:end:step,start:end:step]
data.iloc[行,列]
逗号前面是行,逗号后面是列,步长默认为 1
注意 :区间包前不包后 ,左闭右开,步长默认为 1
print(d4.iloc[0:4,0:4])