文章目录
一、 简介
Pandas支持多种格式数据文件的读写,接口更加方便,比如:csv,json,excel,xml,sql等。
Pandas中Series和DataFrame支持很多基本操作,包括:
- 方便的数据查看工具,条件筛选等。
- 常用运算,比如数学运算、布尔比较等。
- 非数字类型操作,比如字符串、时间等,并且pandas还对字符串等处理进行了扩展。
- 链式调用方法等。
Pandas系列将Pandas的知识和重点API,编制成思维导图和重点笔记形式,方便记忆和回顾,也方便应用时参考,初学者也可以参考逐步深入学习。
二、 思维导图

三、 Pandas IO和常用操作
1. IO
1.1 csv读写
>>> df.to_csv('abc.csv', float_format="%.3f")
>>> pd.read_csv(u"abc.csv", na_values=['-','_'], index_col=0)
a b c d
0 NaN 5 True 2020-01-31
1 NaN 7 False 2020-02-29
2 NaN 9 True 2020-03-31
df.to_csv(file):保存数据到csv文件- sep参数:数据分隔符,默认为逗号
- na_rep参数:空值字符串,默认为’’
- float_format参数:浮点数格式,float_format="%.2f"
- header参数:bool值,是否保存列标签
- index参数:bool值,是否保存行标签
- cols参数:列表参数,指定要保存的列
df=pd.read_csv(file):读取csv数据- sep参数:指定数据分割符号,可以用正则表达式,默认为逗号
- header参数:指定列标签所在行。默认第1行为列名。
- header=0表示无列名。多标签用header=[0,1]形式参数
- index_col参数:指定行标签,可以是数值、字符串、False。默认为None
- skiprows参数:如果数据文件包含一些说明行,可以用该参数指定数据的开始行号。
- skipfooter参数:忽略最后几行。
- na_values, true_values, false_values参数:分别指定NaN、True和False对应的字符串或字符串列表。
- na_values默认值包含了‘’, ‘#N/A’, ‘#N/A N/A’, ‘#NA’, ‘-1.#IND’, ‘-1.#QNAN’, ‘-NaN’, ‘-nan’, ‘1.#IND’, ‘1.#QNAN’, ‘’, ‘N/A’, ‘NA’, ‘NULL’, ‘NaN’, ‘n/a’, ‘nan’, ‘null’.
- encoding参数:指定文件的编码,如’utf-8’,‘utf-8-sig’,'gbk’等
- usecols参数:指定需要读入的列,其他列暂时不读
- chunksize参数:指定一次读入的行数。对很大的文件有用
- parse_dates参数:指定数据类型为时间的列
1.2 excel读写
>>> df.to_excel('a.xlsx') #后缀名不能写错了
>>> pd.read_excel('a.xlsx', index_col=0)
a b c d
0 NaN 5 True 2020-01-31
1 NaN 7 False 2020-02-29
2 NaN 9 True 2020-03-31
要读写’xsl’格式excel文件,需要安装xlwt,xlrd库。
要读写’xslx’格式excel文件,需要安装openpyxl库。
df.to_excel(file):保存excel文件- sheet_name参数:excel标签名称,字符串,默认为Sheet1
- na_rep参数:空值字符串,默认为’’
- float_format参数:浮点数格式,float_format="%.2f"
- header参数:bool值,是否保存列标签
- index参数:bool值,是否保存行标签
df=pd.read_excel(file):读取excel文件- sheet_name:excel标签名称或序号,可以指定多个,如sheet_name=[0,‘sheet1’]
- header参数:指定列标签所在行。默认第1行为列名。
- index_col参数:指定行标签,可以是数值、字符串、False。默认为None
- names参数:如果header=None,没有列标签,可以用names指定
- skiprows参数:如果数据文件包含一些说明行,可以用该参数指定数据的开始行号。
- na_values, true_values, false_values参数:分别指定NaN、True和False对应的字符串或字符串列表。
- usecols参数:指定需要读入的列,其他列暂时不读
- parse_dates参数:指定数据类型为时间的列
1.3 json读写
>>> df.to_json('a.json')
>>> pd.read_json('a.json')
a b c d
0 NaN 5 True 1580428800000
1 NaN 7 False 1582934400000
2 NaN 9

最低0.47元/天 解锁文章
438

被折叠的 条评论
为什么被折叠?



