GraphAr 定义了一套简单、高效、通用的标准图数据文件存储格式,并提供了一系列数据读写和转化接口。目前,GraphAr 已在 Github 开源,欢迎大家关注、贡献代码和加星星✨~开源地址:https://github.com/alibaba/GraphAr
背景介绍
随着社交网络分析、数据挖掘、科学计算等应用的发展,图计算作为海量数据分析的重要组成部分,变得日益重要,业界也诞生了很多基于内存/外存的图存储、数据库、图分析和交互式图查询引擎等。由于图计算的生态非常碎片化,存在很多不同类型的数据格式和访问模式,因此需要建立一套标准化的文件格式和访问接口来解决各种图计算系统的数据导入导出,互相访问的问题。
GraphAr(Graph Archive,简称 GAR)就是为这一目标而设计的,它为图数据定义了一套标准化的、独立于计算/存储系统的文件格式,并提供了一系列接口用来生成、访问和转换这些格式化的文件。GraphAr 可以帮助各类图计算应用或现有系统方便快捷地构建和访问图数据,它既可以作为图计算应用的直接数据源,也可以服务于图数据的导入/导出和持久化存储,减少各类图系统之间协同工作的开销。
设计思路
为了尽可能兼顾各类系统对图数据存储和访问的不同需求,GraphAr 标准化图文件格式的设计考虑了如下要点:
- 尽可能利用现有的成熟的文件格式,例如 ORC、Parquet、CSV 等,并保持兼容性。