HDF5与并行文件操作全解析
1. HDF5:自描述的数据格式
在数据管理领域,传统数据文件格式存在一个显著问题:数据若脱离用于读写文件的代码,便毫无意义。而Hierarchical Data Format(HDF)的第5个版本——HDF5,采取了截然不同的方式。HDF5提供一种自描述的并行数据格式,所谓自描述,是指数据的名称和特征会与数据一同存储在文件中。这意味着,借助文件中包含的数据描述,无需源代码,仅通过查询文件就能读取数据。
HDF5还拥有丰富的命令行实用工具,如 h5ls 和 h5dump ,可用于查询文件内容。在检查文件是否正确写入时,这些工具十分实用。例如,使用传统二进制格式写入数据,虽能保证速度和精度,但难以检查数据是否正确写入,即便将数据读回,也难以确定问题出在写入还是读取过程。而HDF5的实用工具能独立检查写入操作。
2. HDF5的实现与功能模块
HDF5的并行代码基于MPI - IO实现,其结构与MPI - IO相似,但术语和个别函数调用存在差异。HDF5库分为多个低级功能组,这些功能组通过组内所有调用的前缀方便地区分。
-
文件处理操作 :
| 命令 | 描述 |
| ---- | ---- |
| H5Fcreate | 集体打开文件,若文件不存在则创建 |
| H5Fopen | 集体打开已存在的文件 |
| H5Fclose | 集体关闭文件 | -
数据空间操作 :
超级会员免费看
订阅专栏 解锁全文
2063

被折叠的 条评论
为什么被折叠?



