pandas

最新推荐文章于 2025-05-08 09:00:00 发布

原创最新推荐文章于 2025-05-08 09:00:00 发布 · 317 阅读

CC 4.0 BY-SA版权

文章标签：

"""
pandas
1.数据的生成
2.查看基础信息
3.根据行列查询
4.填充
5.数据根据字段进行排序，生成新的文件

"""
import pandas as pd
df = pd.DataFrame(
    [
        [1001,"xiaoming",20,"nan"],
        [1002,"tom",20,None],
        [1003,"xiaohong",20,"nan"],
        [1004,"xioalan",None,"nan"],
        [1005,"xiaowan",20,"nv"]
    ],columns=['编号','姓名','年龄','性别']
) #1.二维表，有行和列索引
print(df)
print("===========",df.loc[0])
df.to_csv("test.txt")
#2.查询

print(df.shape)#查看行数列数
print(df.info())#查看基础信息
print(df.describe())#计算数字列
print(df.head(3))#查看前三行
print(df.tail(3))#查看后三行
#3.根据行列查询
df2 = pd.read_csv("train.csv")
print(df2.shape)#查看行数列数
print(df2.info())#查看基础信息
print(df2.describe())#计算数字列
print(df2.head(3))#查看前三行
print(df2.tail(3))#查看后三行
#按列查询
print(df2['姓名'])
print(df2.姓名)
#按照行列查询
print(df2.loc[1:3,:])#行，列
print(df2.loc[1:3,'姓名':'性别'])#行，列
print(df2.loc[:,['姓名','性别','年龄']])#行，列
print(df2.loc[[1,3],['姓名','性别','年龄']])#行，列
#查询年龄大于18岁的所有行
print(df2[df2['年龄']>18])
print(df2['性别'].unique())
print(df2['年龄'].count())
print(df2['年龄'].sum())
print(df2['年龄'].max())
print(df2['年龄'].mean())
#填充
min = df2['年龄'].min()
df2['年龄']=df2['年龄'].fillna(min)
print(df2)

df2['性别'] = df2['性别'].fillna(df2['性别'].mode()[0])
print(df2)

#5.根据字段进行排序，生成一个新的文件

df3=df2.sort_values(by="年龄",ascending=True)
print(df3)
df3.to_csv("new.csv")#生成新的文件