Pandas系列(二)：IO和常用操作

原创

已于 2022-01-19 19:23:42 修改 · 2.3k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#python #数据挖掘 #pandas IO #数据分析 #pandas

于 2021-12-31 23:11:57 首次发布

Pandas系列目录

一、简介

Pandas支持多种格式数据文件的读写，接口更加方便，比如：csv，json，excel，xml，sql等。

Pandas中Series和DataFrame支持很多基本操作，包括：

方便的数据查看工具，条件筛选等。
常用运算，比如数学运算、布尔比较等。
非数字类型操作，比如字符串、时间等，并且pandas还对字符串等处理进行了扩展。
链式调用方法等。

Pandas系列将Pandas的知识和重点API，编制成思维导图和重点笔记形式，方便记忆和回顾，也方便应用时参考，初学者也可以参考逐步深入学习。

二、思维导图

Pandas IO和常用操作思维导图

三、 Pandas IO和常用操作

1. IO

1.1 csv读写

>>> df.to_csv('abc.csv', float_format="%.3f")
>>> pd.read_csv(u"abc.csv", na_values=['-','_'], index_col=0)
    a  b      c          d
0 NaN  5   True 2020-01-31
1 NaN  7  False 2020-02-29
2 NaN  9   True 2020-03-31

df.to_csv(file)：保存数据到csv文件
- sep参数：数据分隔符，默认为逗号
- na_rep参数：空值字符串，默认为’’
- float_format参数：浮点数格式，float_format="%.2f"
- header参数：bool值，是否保存列标签
- index参数：bool值，是否保存行标签
- cols参数：列表参数，指定要保存的列
df=pd.read_csv(file)：读取csv数据
- sep参数：指定数据分割符号，可以用正则表达式，默认为逗号
- header参数：指定列标签所在行。默认第1行为列名。
  - header=0表示无列名。多标签用header=[0,1]形式参数
- index_col参数：指定行标签，可以是数值、字符串、False。默认为None
- skiprows参数：如果数据文件包含一些说明行，可以用该参数指定数据的开始行号。
- skipfooter参数：忽略最后几行。
- na_values, true_values, false_values参数：分别指定NaN、True和False对应的字符串或字符串列表。
  - na_values默认值包含了‘’, ‘#N/A’, ‘#N/A N/A’, ‘#NA’, ‘-1.#IND’, ‘-1.#QNAN’, ‘-NaN’, ‘-nan’, ‘1.#IND’, ‘1.#QNAN’, ‘’, ‘N/A’, ‘NA’, ‘NULL’, ‘NaN’, ‘n/a’, ‘nan’, ‘null’.
- encoding参数：指定文件的编码，如’utf-8’,‘utf-8-sig’,'gbk’等
- usecols参数：指定需要读入的列，其他列暂时不读
- chunksize参数：指定一次读入的行数。对很大的文件有用
- parse_dates参数：指定数据类型为时间的列

1.2 excel读写

>>> df.to_excel('a.xlsx')   #后缀名不能写错了
>>> pd.read_excel('a.xlsx', index_col=0)
    a  b      c          d
0 NaN  5   True 2020-01-31
1 NaN  7  False 2020-02-29
2 NaN  9   True 2020-03-31

要读写’xsl’格式excel文件，需要安装xlwt，xlrd库。
要读写’xslx’格式excel文件，需要安装openpyxl库。

df.to_excel(file)：保存excel文件
- sheet_name参数：excel标签名称，字符串，默认为Sheet1
- na_rep参数：空值字符串，默认为’’
- float_format参数：浮点数格式，float_format="%.2f"
- header参数：bool值，是否保存列标签
- index参数：bool值，是否保存行标签
df=pd.read_excel(file):读取excel文件
- sheet_name：excel标签名称或序号，可以指定多个，如sheet_name=[0,‘sheet1’]
- header参数：指定列标签所在行。默认第1行为列名。
- index_col参数：指定行标签，可以是数值、字符串、False。默认为None
- names参数：如果header=None，没有列标签，可以用names指定
- skiprows参数：如果数据文件包含一些说明行，可以用该参数指定数据的开始行号。
- na_values, true_values, false_values参数：分别指定NaN、True和False对应的字符串或字符串列表。
- usecols参数：指定需要读入的列，其他列暂时不读
- parse_dates参数：指定数据类型为时间的列

1.3 json读写

>>> df.to_json('a.json')
>>> pd.read_json('a.json')
    a  b      c              d
0 NaN  5   True  1580428800000
1 NaN  7  False  1582934400000
2 NaN  9