数据加载、存储、清洗与转换全攻略
1. 数据存储与加载
在数据处理过程中,我们常常需要将数据存储到文件中,或者从文件中加载数据。HDF5 是一种常用的文件格式, pandas.read_hdf 函数为我们提供了便捷的操作方式。
import pandas as pd
# 将数据存储到 HDF5 文件
frame.to_hdf("examples/mydata.h5", "obj3", format="table")
# 从 HDF5 文件中加载数据
pd.read_hdf("examples/mydata.h5", "obj3", where=["index < 5"])
如果不再需要这个 HDF5 文件,可以使用以下代码将其删除:
import os
os.remove("examples/mydata.h5")
当处理存储在远程服务器(如 Amazon S3 或 HDFS)上的数据时,使用专为分布式存储设计的二进制格式(如 Apache Parquet)可能更合适。而对于本地大量数据的处理,建议探索 PyTables 和 h5py 以满足需求。需要注意的是,HDF5 并非数据库,它更适合一次写入、多次读取的数据集。若多个写入者同时向文件添加数据,文件可能会损坏。
2. 与 Web API 交互
许多网站提供公共 API,通过 JSON 或其他格式提供数据。在 Python 中,我们可以使用
超级会员免费看
订阅专栏 解锁全文
1048

被折叠的 条评论
为什么被折叠?



