pandas+datafram

Pandas的dataframe基本操作方法总结

一.DataFram的基本结构:

import pandas as pd
import numpy as np

df = pd.DataFram(np.arange(9).reshape(3,3),index = ['row1','row2','row3']
,columns=['col1','col2','col3'])#arange是一个循环的范围,reshape是一个什么结构样式的,在这里DataFram矩阵
df

二. 按索引或行列名选取DataFrame的行和列的方法

取一行:df.iloc[0]或df.iloc[0,:]
取多行:df.iloc[[0,2]]或df.iloc[[0,2],:]
取连续多行:df.iloc[0:2]或df.iloc[0:2,:]
取一列:df.iloc[:,0]
取多列:df.iloc[:,[0,2]]或df.iloc[:,[0,2]]
取连续多列:df.iloc[:,0:2]

#布尔类型,判断正误
df>4            
#把整个矩阵中大于4的重新修改为100
df[df>4]=100
df
#选取整个矩阵
df.loc[df.iloc[:,0]==2]       
df
#把col1那一列值为4的改为99
df.loc[df['col1']==4,'col1']=99   
df

三. 按条件选取DataFrame的行和列

#将第一行等于1的一行输出来
df.loc[df.iloc[:,0]==1]   
#将第一列等于4的那一行输出来
df.loc[df.loc[:,'col1']==4,:] 
#判断等于1的第一行是否等于3<比较的正误>(是否相等)
df.loc[df.iloc[:,0]==1,:]==3 

pandas的基本处理

#把excel表导出来pd.read_excel(r+直接复制路径)
df = pd.read_excel(r"C:\Users\dell\Desktop\oc-ML\机器学习\暑假\2020年北京招聘岗位信息.xlsx")   #路径的前面加r
df
#按照索引导出要的两列内容,用列表的形式框住
df1 = df[["单位名称","岗位名称"]]
df1
#df.sort_values('索引的名字',ascending=False)
df2 = df2.sort_values('招聘人数',ascending=False)
#df.sort_values('索引的名字',axis=0)
df3 = df2.sort_values('招聘人数',axis=0)
#只取前10行数据
df2[0:10]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值