读写文本格式的数据
pandas中的解析函数
read_csv/read_table函数的参数
将数据写出到文本格式
In[1]: data=pd.read_csv('data1.csv')
data.to_csv('data2.csv')
手工处理分隔符格式
csv语支选项
JSON数据
obj= """
{"name":"Wes",
"places_lived":["United States","Spain","Germany"],
"pet":null,
"siblings":[{"name":"Scott","age":25, "pet":"Zuko"},{"name":"Katie","age":33,"pet":"Cisco"}]
}
"""
In[1]: import json
In[2]: result = json.loads(obj)//将json转换成python形式
In[3]: asjson = json.dumps(result)//将python对象转换成json格式
XML和HTML:web信息收集
Python有许多可以读写HTML和XML格式数据的库。lxml(http://lxml.de)就是其中之一,它能够高效且可靠地解析大文件。lxml有多个编程接口。
from lxml.html import parse
from urllib2 import urlopen
parsed = parse(urlopen('http://finance,yahoo.com/q/op?s=AAPL+Options'))
doc = parsed.getroot()
//利用lxml.objectity解析XML
from lxml import objectify
path = 'Performance_MNR.xml'
parsed = objectify.parse(open(path))
root = parsed.getroot()
二进制数据格式
In[1]: frame.save('frame_pickle')//以二进制格式存储
In[2]:pd.load('frame_pickle')//加载二进制格式数据
使用HDFS格式
很多工具都能高效读写磁盘上以二进制格式存储的科学数据。HDF5就是其中一个流行的工业级库,它是一个C库,带有许多语言的接口,如java,Python和MATLAB等。HDF5的HDF指的是层次型数据格式(hierarchical data format)。每个HDF5文件都含有一个文件系统式的节点结构,它使你能够存储多个数据集并支持元数据。与其他简单格式相比,HDF5支持多种压缩器的即时压缩,还能更高效地存储重复模式数据。对于那些非常大的无法直接放入内存的数据集,HDF5就是不错的选择,因为它可以高效地分块读写。
Python中的HDF5库有两个接口(即PyTables和h5py),它们各自采取了不同的问题解决方式。h5py提供了一种直接而高级的HDF5 API访问接口,而PyTables则抽象了HDF5的许多种灵活的数据容器,表索引,查询功能。
读取Microsoft Excel文件
xls_file = pd.ExcelFile('data.xls')
table = xls.file.parse('sheet1')