数据加载,存储与文件格式化

本文深入探讨了使用Python处理不同文本格式数据的方法,包括CSV、JSON、XML、HTML、二进制数据和HDFS。介绍了如何使用pandas库进行数据解析、转换和存储,以及如何利用lxml库高效处理XML和HTML格式数据。此外,还详细说明了如何通过HDFS存储和读取大型科学数据集。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

读写文本格式的数据

pandas中的解析函数
这里写图片描述

read_csv/read_table函数的参数
这里写图片描述
这里写图片描述

将数据写出到文本格式

In[1]: data=pd.read_csv('data1.csv')
data.to_csv('data2.csv')

手工处理分隔符格式

csv语支选项
这里写图片描述

JSON数据

obj= """
{"name":"Wes",
 "places_lived":["United States","Spain","Germany"],
 "pet":null,
 "siblings":[{"name":"Scott","age":25, "pet":"Zuko"},{"name":"Katie","age":33,"pet":"Cisco"}]

}
"""
In[1]: import json
In[2]: result = json.loads(obj)//将json转换成python形式
In[3]: asjson = json.dumps(result)//将python对象转换成json格式

XML和HTML:web信息收集

Python有许多可以读写HTML和XML格式数据的库。lxml(http://lxml.de)就是其中之一,它能够高效且可靠地解析大文件。lxml有多个编程接口。

from lxml.html import parse
from urllib2 import urlopen

parsed = parse(urlopen('http://finance,yahoo.com/q/op?s=AAPL+Options'))

doc = parsed.getroot()

//利用lxml.objectity解析XML

from lxml import objectify

path = 'Performance_MNR.xml'
parsed = objectify.parse(open(path))
root = parsed.getroot()


二进制数据格式

In[1]: frame.save('frame_pickle')//以二进制格式存储
In[2]:pd.load('frame_pickle')//加载二进制格式数据

使用HDFS格式

很多工具都能高效读写磁盘上以二进制格式存储的科学数据。HDF5就是其中一个流行的工业级库,它是一个C库,带有许多语言的接口,如java,Python和MATLAB等。HDF5的HDF指的是层次型数据格式(hierarchical data format)。每个HDF5文件都含有一个文件系统式的节点结构,它使你能够存储多个数据集并支持元数据。与其他简单格式相比,HDF5支持多种压缩器的即时压缩,还能更高效地存储重复模式数据。对于那些非常大的无法直接放入内存的数据集,HDF5就是不错的选择,因为它可以高效地分块读写。
Python中的HDF5库有两个接口(即PyTables和h5py),它们各自采取了不同的问题解决方式。h5py提供了一种直接而高级的HDF5 API访问接口,而PyTables则抽象了HDF5的许多种灵活的数据容器,表索引,查询功能。
这里写图片描述

读取Microsoft Excel文件

xls_file = pd.ExcelFile('data.xls')
table = xls.file.parse('sheet1')
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值