python数据科学包(四)—— pandas的io、时间处理以及可视化

目录

一. 文件读写

载入数据到pandas
	索引:将一个列或多个列读取出来构成 DataFrame,其中涉及是否从文件中读取索引以及列名
	类型推断和数据转换:包括用户自定义的转换以及缺失值标记
	日期解析
	迭代:针对大文件进行逐块迭代。这个是Pandas和Python原生的csv库的最大区别
	不规整数据问题:跳过一些行,或注释等等

索引及列名

在这里插入图片描述
处理不规则的分隔符

在这里插入图片描述

缺失值的处理

在这里插入图片描述
逐块读取数据

在这里插入图片描述

保存数据到磁盘

在这里插入图片描述

二进制格式
二进制的优点是容量小,读取速度快。缺点是可能在不同版本间不兼容。比如 Pandas 版本升级后,早期版本保存的二进制数据可能无法正确地读出来。
在这里插入图片描述

二. 时间处理

时间序列
基础:python的datetime
创建日期序列
pd.date_range(‘20190901’, periods=7, normalize=True, freq=‘24H’) # 包含从20190901及其以后7个间隔为24h(默认)的序列,并只保留到日
时期
pd.Period(2010)
创建时期序列
pd.period_range(‘20190901’, periods=7 , freq=‘24H’)
频率转换
pd.Period.asfreq(‘频率标识’)
重采样
ts.resample(‘5min’, how=‘sum’ label=‘left’/‘right’)
统计开盘收盘
how=‘ohlc’

三. 数据可视化

notebook内显示
%matplotlib inline
线型图
.plot(title=’’, style=’’, figsize=(,), subplot=True/False)
柱状图
.plot.bar()
直方图
.hist(bins=多少等分)
概率密度
.plot.kde()
散点图
.plot.scatter()
饼图
.plot.pie()

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值