数据存储格式全解析:从HDF5到SQLite
1. 常见数据格式概述
在数据处理中,我们会遇到多种用于存储表格数据的格式。这些格式大多不会引入新的数据清洁问题,数据类型选项因存储格式而异,但与关系型数据库管理系统(RDBMS)相关的常见问题对它们同样适用。主要来说,这些格式只是需要不同的API来访问底层数据,且都按列提供数据类型。
常见的数据格式有:
- HDF5和NetCDF :二者密切相关且基本可互操作,能存储多个数组,每个数组都有相关元数据,支持高维数据,而非仅二维表格数组。数组类型单一,同一对象中不能存储文本列和数字列,也不能存储不同位宽的数字列,但同一文件可包含多个数组。
- SQLite :一种文件格式,可在单个文件中提供关系型数据库,可能包含多个表。应用广泛,从iOS和Android设备到大型超级计算机集群都有使用。Python标准库提供了其接口,几乎所有编程语言都有相应接口。
- Apache Parquet :面向列的数据存储方式,用于将数据帧或表格存储到磁盘,优化了按列而非按行进行向量化的常见操作。
- MariaDB :MySQL的分支,由MySQL创建者Monty Widenius创建。2009年Oracle收购MySQL后,出于知识产权自由的考虑而开发。设计和功能与MySQL相似,但自分支后一些高级功能有所不同。
1.1 其他二进制数据格式
除上述格式外,还有一些广泛使用的二进制数据格式:
- Feather(和A
超级会员免费看
订阅专栏 解锁全文
486

被折叠的 条评论
为什么被折叠?



