2.Pandas常用函数汇总

这篇博客详细介绍了Pandas中的Series和DataFrame操作,包括根据列表和数组创建Series,DataFrame的创建、列操作、行操作、添加操作、排序、转置、分组和数据合并等,涵盖了从基础到进阶的多种功能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.创建Series

1.1 根据列表创建

# 根据列表创建
list=["a","b","c"]
s=pd.Series(list)
s.index  # 输出0 1 2
s.values  # 输出a b c
# 将第二个值修改为d
s[1]="d"

 1.2 根据数组创建

# 根据字典创建
dic = {"a":1,"b":2,"c":3}
s=pd.Series(dic)
s.index   # 输出a b c 
s.values  # 输出1 2 3

1.3 切片

s1= pd.Series([6,7,8,9,10],index = ['a','b','c','d','e'])
s1["b":"d"]  #输出b c d 行
s1[1:3]  # 输出b c 行

1.4 删除与添加 

s = pd.Series(np.random.rand(5),index=list("abcde"))
# 删除a那一行
s1 = s.drop("a",inplace=True)
# 增加a那一行 
s["a"]=100                    

ps.s1+s2执行的是对齐运算 

s1 = pd.Series(np.random.rand(3), index=["Kelly","Anne","T-C"])

s2 = pd.Series(np.random.rand(3), index=["Anne","Kelly","LiLy"])

print("===================")
print(s1)
print("===================")
print(s2)
print("===================")
print(s1+s2)         ##对不齐的地方补null

 结果:

                                   

2.DataFrame 

2.1 DataFrame的创建

data = {'Name':['关羽', '刘备', '张飞', '曹操'],'Age':[28,34,29,42]}

index = ["rank1", "rank2", "rank3", "rank4"]
df = pd.DataFrame(data, index=index)

2.2 列操作

# 添加新的一列名为socore
df.insert(1,column='score',value=[80,70,90,100])
# 删除指的的列
del df['score']       ##单独删除该行

2.3 行操作 

创建数据表:

df = pd.DataFrame({'b':[1,2,2,3],'a':[4,3,2,1],'c':[1,3,8,2]},
                 index=["2","0","1","3"]
                  ) 

                                                               

#### 选取某行
data.loc["2"]
data.iloc[0]

#选取第0行,第1行
df.iloc[[0,1]] 
#选取第0行第1列
df.iloc[0,1]  
#选取所有行,第一列,第二列
df.iloc[:,[0,1]]

df.loc["2":"1"]
df.loc[["2","1"],"b"] 

2.4 添加操作 

df1=pd.DataFrame({"a":[1,2,3],
                  "b":[4,5,6],
                  "c":[7,8,9]
                 })
df2=pd.DataFrame({"a":[4,5,6],
                  "b":[7,8,9],
                  "d":[10,11,12]
})
df1.append(df2,ignore_index=True)  # 重新索引

                                                 

2.5 排序 

df.sort_index()  #默认按行索引排序
df.sort_index(axis=1) #按列索引排序

                                         

                    (1)原表格                      (2)行索引排序               (3)列索引排序 

# 将b列从小到大排序
df.sort_values(by="b")
# 将3行升序排列
df.sort_values(by=3,axis=1) # axis=1不能省
# 先按a升序,再按b降序
df.sort_values(by=["b","a"],ascending=[True,False])

 2.6 转置操作

df.T

2.7 分组操作 

已知表格:

                                               

# 按照公司进行分组
data = data.groupby("company")

                                            

# 先分组,再聚合
data = data.groupby("company").agg({"salary":"median","age":"mean"})

                                         

# 求各个公司的平均薪水并添加为新的一列
data["salary_avg"]=data.groupby("company")["salary"].transform("mean")
# 求每个公司最老的员工
def oldest_emp(x):
    data= x.sort_values(by="age")
    return data.iloc[-1]

oldest = data.groupby("company").apply(oldest_emp)
oldest

 2.8 数据合并

已知两个表格:

                                       

# 内连接
pd.merge(df1, df2, on="userid") 
# 左连接 
pd.merge(df1,df2,how="left",on="userid")
# 右连接
pd.merge(df1,df2,how="right",on="userid") 
# 外连接
pd.merge(df1,df2,how="outer",on="userid")

从左到右依次为内/左/右/外连接 

   

        

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值