目录
介绍
Apache Gravitino 是一个高性能、地理分布、联合的元数据湖。它直接管理不同来源、类型和地区的元数据。它还为用户提供数据和 AI 资产的统一元数据访问。
Gravitino 旨在提供几个关键功能:
- 统一的元数据管理:Gravitino 提供统一的模型和 API 来管理不同类型的元数据,包括关系(例如 Hive、MySQL)和基于文件(例如 HDFS、S3)的元数据源。
- 端到端数据治理:Gravitino 提供统一的治理层,用于管理元数据,具有访问控制、审计和发现等功能。
- 直接元数据管理:Gravitino 通过连接器直接连接到元数据源,确保更改立即反映在 Gravitino 和底层系统之间。
- 地理分布支持:Gravitino 支持跨多个区域或云部署,允许实例共享元数据以实现跨区域全局视图。
- 多引擎支持:Gravitino 支持查询引擎,无需修改 SQL 方言即可访问元数据。
- AI 资产管理(WIP):Gravitino 正在扩展以管理数据和 AI 资产,并支持目前正在开发的 AI 模型和功能。
安装部署
版本:gravitino-0.7.0-incubating
启动命令
./bin/gravitino.sh start
UI界面地址:http://localhost:8090
管理 metalake java api
pom依赖
<dependency>
<groupId>org.apache.gravitino</groupId>
<artifactId>api</artifactId>
<version>0.7.0-incubating</version>
</dependency>
<dependency>
<groupId>org.apache.gravitino</groupId>
<artifactId>client-java-runtime</artifactId>
<version>0.7.0-incubating</version>
</dependency>
创建metalake
删除metalake,确保metalake下没有目录、metalake已禁用。否则会报错