Pandas的dataframe基本操作方法总结
一.DataFram的基本结构:
import pandas as pd
import numpy as np
df = pd.DataFram(np.arange(9).reshape(3,3),index = ['row1','row2','row3']
,columns=['col1','col2','col3'])#arange是一个循环的范围,reshape是一个什么结构样式的,在这里DataFram矩阵
df
二. 按索引或行列名选取DataFrame的行和列的方法
取一行:df.iloc[0]或df.iloc[0,:]
取多行:df.iloc[[0,2]]或df.iloc[[0,2],:]
取连续多行:df.iloc[0:2]或df.iloc[0:2,:]
取一列:df.iloc[:,0]
取多列:df.iloc[:,[0,2]]或df.iloc[:,[0,2]]
取连续多列:df.iloc[:,0:2]
#布尔类型,判断正误
df>4
#把整个矩阵中大于4的重新修改为100
df[df>4]=100
df
#选取整个矩阵
df.loc[df.iloc[:,0]==2]
df
#把col1那一列值为4的改为99
df.loc[df['col1']==4,'col1']=99
df
三. 按条件选取DataFrame的行和列
#将第一行等于1的一行输出来
df.loc[df.iloc[:,0]==1]
#将第一列等于4的那一行输出来
df.loc[df.loc[:,'col1']==4,:]
#判断等于1的第一行是否等于3<比较的正误>(是否相等)
df.loc[df.iloc[:,0]==1,:]==3
pandas的基本处理
#把excel表导出来pd.read_excel(r+直接复制路径)
df = pd.read_excel(r"C:\Users\dell\Desktop\oc-ML\机器学习\暑假\2020年北京招聘岗位信息.xlsx") #路径的前面加r
df
#按照索引导出要的两列内容,用列表的形式框住
df1 = df[["单位名称","岗位名称"]]
df1
#df.sort_values('索引的名字',ascending=False)
df2 = df2.sort_values('招聘人数',ascending=False)
#df.sort_values('索引的名字',axis=0)
df3 = df2.sort_values('招聘人数',axis=0)
#只取前10行数据
df2[0:10]