本文相当于自己的学习笔记,望各位大神不吝批评指正。
用python处理csv文件的时候,会遇到很多细节问题,不注意的话很容易报错。下面将分模块进行讨论:
1、导入csv文件
# -*-coding:utf-8-*-
#这是为了在能够识别IDE中输入的中文
import pandas as pd
df=pd.read_csv('D://DataAnalyst.csv',encoding='gbk')
#读取文件,设置编码方式是gbk,即中文;gb2312是早于gbk的中文编码方法,收录的文字数量少于gbk;
2、选取数据
print df.head() # 选取文件头几条数据,默认为5
print df['positionName'] # 选取字段为“positionName”的所有数据
print df[:3] # 选取文件前三条数据
print df['positionName'][:3] # 选取字段为“positionName”的前三条数据
print df[:3]['positionName'] # 同上
print df[['positionName', 'positionLables']] # 选取两个字段
print df[['positionName', 'positionLables']][:10] # 选取两个字段的前十条数据
df_counts = df['city'].value_counts() # 计算各个字段的数量
print df_counts
北京 4177
上海 980
深圳 527
杭州 407
广州 335
成都 135
南京 83
武汉 69
西安 51
苏州 37
厦门 30
长沙 25
天津 20
待更新