(5、pandas数据读写、选择、整理和描述)Python爬虫与数据清洗的进化

PyCharm使用pandas前需要先安装NumPy和python-dateutil模块

读取CSV格式文件

可以设置编码格式,可以使用delimiter="xxx",根据所读取的数据文件列之间的分隔方式设置delimiter参数,大于一个字符的分隔符被看作正则表达式,如一个或多个空格(\s+)、tab符号(\t)等。

CSV写入数据

如果设置index=True,则有索引。

import pandas as pd
df=pd.read_csv(r'./1.csv')
df.to_csv('3.csv',columns=['City_ID','City_CN'],index=True,header=True)

数据选择

行的选取:rows=df[0:3] 既选择第0行到第3行。

 列的选取:cols=df[['xxx','xxx']]   clos.head()用于显示前五行数据

块的选取: df.loc[0:3,['xxx','xxx']] 此处的“0:3”相当于[0,1,2,3]

根据条件过滤行

在方括号中加入判断条件来过滤行,条件必须返回True或者False

df[(df['xxx']<100)&(df['xxx']>200)]

数据整理

set_index将某个字段作为索引

以两个字段作为索引


接下来将mean和sum按照Province_CN分组计算均值和求和,mean求均值,sum求和,其中drop默认axis=0是删除行,axis=1是删除列。groupby汇总,sort_values排序,默认ascending=True是从高到低,ascding=False是从高到低排序。

import pandas as pd
df=pd.read_csv('./1.csv',encoding='gbk')
#print(df[['City_ID','City_CN','Longitude','AD_code']])
df_mean=df.drop(['AD_code','Longitude','Latitude'],axis=1).groupby('Province_CN').mean().sort_values('mean',ascending=False)
print(df_mean)
print('----------------------------------------------')
df_sum=df.drop(['AD_code','Longitude','Latitude'],axis=1).groupby('Province_CN').sum().sort_values('sum')
print(df_sum)

数据描述

import pandas as pd
df=pd.read_csv('./1.csv',encoding='gbk')
print(df.info())
print(df.describe())

查看表的数据信息

df.info()

 查看表的描述性统计信息

df.describe()

 Tips:下一篇:数据分组、分割、合并和变形

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值