Pandas系列(二):IO和常用操作

Pandas系列目录



一、 简介

Pandas支持多种格式数据文件的读写,接口更加方便,比如:csv,json,excel,xml,sql等。

Pandas中Series和DataFrame支持很多基本操作,包括:

  • 方便的数据查看工具,条件筛选等。
  • 常用运算,比如数学运算、布尔比较等。
  • 非数字类型操作,比如字符串、时间等,并且pandas还对字符串等处理进行了扩展。
  • 链式调用方法等。

Pandas系列将Pandas的知识和重点API,编制成思维导图和重点笔记形式,方便记忆和回顾,也方便应用时参考,初学者也可以参考逐步深入学习。

二、 思维导图

Pandas IO和常用操作思维导图


三、 Pandas IO和常用操作

1. IO

1.1 csv读写

>>> df.to_csv('abc.csv', float_format="%.3f")
>>> pd.read_csv(u"abc.csv", na_values=['-','_'], index_col=0)
    a  b      c          d
0 NaN  5   True 2020-01-31
1 NaN  7  False 2020-02-29
2 NaN  9   True 2020-03-31
  • df.to_csv(file):保存数据到csv文件
    • sep参数:数据分隔符,默认为逗号
    • na_rep参数:空值字符串,默认为’’
    • float_format参数:浮点数格式,float_format="%.2f"
    • header参数:bool值,是否保存列标签
    • index参数:bool值,是否保存行标签
    • cols参数:列表参数,指定要保存的列
  • df=pd.read_csv(file):读取csv数据
    • sep参数:指定数据分割符号,可以用正则表达式,默认为逗号
    • header参数:指定列标签所在行。默认第1行为列名。
      • header=0表示无列名。多标签用header=[0,1]形式参数
    • index_col参数:指定行标签,可以是数值、字符串、False。默认为None
    • skiprows参数:如果数据文件包含一些说明行,可以用该参数指定数据的开始行号。
    • skipfooter参数:忽略最后几行。
    • na_values, true_values, false_values参数:分别指定NaN、True和False对应的字符串或字符串列表。
      • na_values默认值包含了‘’, ‘#N/A’, ‘#N/A N/A’, ‘#NA’, ‘-1.#IND’, ‘-1.#QNAN’, ‘-NaN’, ‘-nan’, ‘1.#IND’, ‘1.#QNAN’, ‘’, ‘N/A’, ‘NA’, ‘NULL’, ‘NaN’, ‘n/a’, ‘nan’, ‘null’.
    • encoding参数:指定文件的编码,如’utf-8’,‘utf-8-sig’,'gbk’等
    • usecols参数:指定需要读入的列,其他列暂时不读
    • chunksize参数:指定一次读入的行数。对很大的文件有用
    • parse_dates参数:指定数据类型为时间的列

1.2 excel读写

>>> df.to_excel('a.xlsx')   #后缀名不能写错了
>>> pd.read_excel('a.xlsx', index_col=0)
    a  b      c          d
0 NaN  5   True 2020-01-31
1 NaN  7  False 2020-02-29
2 NaN  9   True 2020-03-31

要读写’xsl’格式excel文件,需要安装xlwt,xlrd库。
要读写’xslx’格式excel文件,需要安装openpyxl库。

  • df.to_excel(file):保存excel文件
    • sheet_name参数:excel标签名称,字符串,默认为Sheet1
    • na_rep参数:空值字符串,默认为’’
    • float_format参数:浮点数格式,float_format="%.2f"
    • header参数:bool值,是否保存列标签
    • index参数:bool值,是否保存行标签
  • df=pd.read_excel(file):读取excel文件
    • sheet_name:excel标签名称或序号,可以指定多个,如sheet_name=[0,‘sheet1’]
    • header参数:指定列标签所在行。默认第1行为列名。
    • index_col参数:指定行标签,可以是数值、字符串、False。默认为None
    • names参数:如果header=None,没有列标签,可以用names指定
    • skiprows参数:如果数据文件包含一些说明行,可以用该参数指定数据的开始行号。
    • na_values, true_values, false_values参数:分别指定NaN、True和False对应的字符串或字符串列表。
    • usecols参数:指定需要读入的列,其他列暂时不读
    • parse_dates参数:指定数据类型为时间的列

1.3 json读写

>>> df.to_json('a.json')
>>> pd.read_json('a.json')
    a  b      c              d
0 NaN  5   True  1580428800000
1 NaN  7  False  1582934400000
2 NaN  9
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

hustlei

您的鼓励将是我创作的最大动力!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值