比较系统的学习 pandas (3)-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_51943014/article/details/130089014

数据信息

1、查看数据内容

data.head()          #查看前5条，括号里可以写明你想看的条数，默认5条

data.head(3)         #查看前三条

data.tail()          #查看尾部5条，括号里可以写明你想看的条数，默认5条

data.sample(5)       # 随机查看5条，括号里可以写明你想看的条数

2、从整体角度查看数据

data.shape              # 查看行数和列数

data.info()             # 查看索引、数据类型和内存信息等基础信息

data.describe()         # 查看数值型列的汇总统计

data.dtypes             # 查看各字段类型

data.axes               # 显示数据行和列名 

data.ndim               #维度

data.columns            # 列名

data.index              # 索引对象

data.values             # array(<所有值的列表矩阵>)


#查看每列是否有缺失值
data.isnull().any()

# 检查data每列的缺失值的占比
data.apply(lambda x : sum(x.isnull())/len(x), axis=0,)

3、数据的选择

import  pandas as pd
d4 = pd.DataFrame({"姓名":["慕晨风","小慕","微凉","苏浅","张三","李四"],
                   "性别": ["男", "男", "女","女","男","男"],
                   "age": [23, 24, 21,23,22,20],
                   "学号":["02","03","04","102","103","104"],
                   "班级":["1班","1班","1班","2班","2班","2班"],
                   "语文":[90,99,87,100,101,120],
                   "数学":[130,120,121,98,89,97],
                   "英语":[87,85,61,32,77,88]
                   })

d4.set_index("学号",inplace=True)


print(d4)

1、切片选择列

单列

#选择单列

data["name"]

data.name 

#以上两者是等价的，依照个人习惯选一种就行

多列

data[['name','age']]   #注意是 二维

注意：

data[["name"]] 返回的是一个 DataFrame

data["name"] 返回的是 Series

2、按轴标签选择行和列

语法：

 data.loc[start:end:step,start:end:step]
data.loc[行索引范围,列索引范围]

逗号前面是行，逗号后面是列,步长默认为 1


d4.set_index("学号",inplace=True)
print(d4)

print(d4.loc["02":"101","姓名":"班级"])

print(d4.loc["02":"103",["姓名","班级"]])

print(d4.loc[:,"语文":"英语"])

print(d4.loc["03":"102"])


print(d4.loc[::2]) # 步长为 2

3、按数字索引选择行和列

语法：

 data.iloc[start:end:step,start:end:step]
data.iloc[行，列]  

逗号前面是行，逗号后面是列,步长默认为 1

注意：区间包前不包后，左闭右开,步长默认为 1

print(d4.iloc[0:4,0:4])