PyCharm使用pandas前需要先安装NumPy和python-dateutil模块
读取CSV格式文件
可以设置编码格式,可以使用delimiter="xxx",根据所读取的数据文件列之间的分隔方式设置delimiter参数,大于一个字符的分隔符被看作正则表达式,如一个或多个空格(\s+)、tab符号(\t)等。
CSV写入数据
如果设置index=True,则有索引。
import pandas as pd
df=pd.read_csv(r'./1.csv')
df.to_csv('3.csv',columns=['City_ID','City_CN'],index=True,header=True)
数据选择
行的选取:rows=df[0:3] 既选择第0行到第3行。
列的选取:cols=df[['xxx','xxx']] clos.head()用于显示前五行数据
块的选取: df.loc[0:3,['xxx','xxx']] 此处的“0:3”相当于[0,1,2,3]
根据条件过滤行
在方括号中加入判断条件来过滤行,条件必须返回True或者False
df[(df['xxx']<100)&(df['xxx']>200)]
数据整理
set_index将某个字段作为索引
以两个字段作为索引
接下来将mean和sum按照Province_CN分组计算均值和求和,mean求均值,sum求和,其中drop默认axis=0是删除行,axis=1是删除列。groupby汇总,sort_values排序,默认ascending=True是从高到低,ascding=False是从高到低排序。
import pandas as pd
df=pd.read_csv('./1.csv',encoding='gbk')
#print(df[['City_ID','City_CN','Longitude','AD_code']])
df_mean=df.drop(['AD_code','Longitude','Latitude'],axis=1).groupby('Province_CN').mean().sort_values('mean',ascending=False)
print(df_mean)
print('----------------------------------------------')
df_sum=df.drop(['AD_code','Longitude','Latitude'],axis=1).groupby('Province_CN').sum().sort_values('sum')
print(df_sum)
数据描述
import pandas as pd
df=pd.read_csv('./1.csv',encoding='gbk')
print(df.info())
print(df.describe())
查看表的数据信息
df.info()
查看表的描述性统计信息
df.describe()
Tips:下一篇:数据分组、分割、合并和变形