元数据 Gravitino 1.0.1 Catalog管理及使用

支持的 Catalog

类别(Category)Catalog 类型(Catalog Type)说明 / 用途
RelationalDoris catalog对接 Apache Doris,管理其数据库和表
Hive catalog对接 Apache Hive Metastore,管理 Hive 表
Hudi catalog管理 Apache Hudi 表(通常基于 Hive 或 LakeFS)
Iceberg catalog管理 Apache Iceberg 表(支持 Hive、JDBC、REST 等后端)
MySQL catalog通过 JDBC 连接 MySQL,将其作为元数据源
Paimon catalog对接 Apache Paimon(原 Flink Table Store),用于流批一体表
PostgreSQL catalog通过 JDBC 连接 PostgreSQL
OceanBase catalog对接 OceanBase 数据库(兼容 MySQL/Oracle 模式)
StarRocks catalog对接 StarRocks,管理其数据库和表
FilesetFileset catalog管理通用文件集合(如 Parquet、CSV 文件目录)
Fileset catalog with S3文件存储在 Amazon S3 上
Fileset catalog with GCS文件存储在 Google Cloud Storage (GCS) 上
Fileset catalog with OSS文件存储在阿里云 OSS 上
Fileset catalog with ADLS文件存储在 Azure Data Lake Storage (ADLS) 上
Fileset catalog index(实验性)为 Fileset 提供索引能力
MessagingKafka catalog管理 Apache Kafka 主题(Topic)的元数据,支持 schema 注册
ModelModel catalog管理机器学习模型元数据(如模型版本、输入/输出 schema、存储路径等,实验性功能)
  • Relational Catalogs:大多通过 JDBC 或专用客户端连接,适用于结构化数据库。
  • Fileset Catalogs:适用于无 Schema 的原始文件管理,常用于数据湖场景。
  • Iceberg / Hudi / Paimon:属于 表格式(Table Format)Catalog,Gravitino 可直接操作其元数据。
  • Kafka & Model Catalogs:属于扩展领域,支持更广泛的元数据治理(消息队列、AI 模型)。

✅ 所有 Catalog 均可在 同一个 Metalake 下共存,实现统一元数据视图。

Catalog

MySQL catalog

jdbc.driver : com.mysql.cj.jdbc.Driver

jdbc.url: jdbc:mysql://mydoris:3306/app_db?useSSL=false&serverTimezone=UTC&allowPublicKeyRetrieval=true

Doris catalog

jdbc.driver : com.mysql.cj.jdbc.Driver

jdbc.url: jdbc:mysql://mydoris:9030

Paimon catalog

url  thrift://mydoris:9083

warehouse :  hdfs://mydoris:9000/user/paimon/warehouse

Iceberg catalog

url  thrift://mydoris:9083

warehouse :  hdfs://mydoris:9000/user/iceberg/warehouse

kafka iceberg

bootstrap.servers    mydoris:9092

计算引擎

Flink

环境准备

上传 jar 包到 $FLINK_HOME/lib

gravitino-flink-connector-runtime-1.18_2.12-1.0.1.jar

配置flink-conf.yaml

vim $FLINK_HOME/conf/config.yaml
 
# Gravitino 相关
table.catalog-store.kind: gravitino
table.catalog-store.gravitino.gravitino.metalake: MyMetalake
table.catalog-store.gravitino.gravitino.uri: http://mydoris:8090
table.catalog-store.gravitino.gravitino.client.socketTimeoutMs: 60000
table.catalog-store.gravitino.gravitino.client.connectionTimeoutMs: 60000

查表

# 打开 SQL Client
$FLINK_HOME/bin/sql-client.sh
-- 设置查询模式
SET 'execution.runtime-mode' = 'batch';
-- 设置输入格式
SET 'sql-client.execution.result-mode' = 'tableau';
-- 显示 catalog
show catalogs;
-- 切换 catalog
use catalog myPaimon;
-- 显示数据库
show databases;
-- 切换数据库
use app_db;
-- 查询表
show tables;
-- 查询数据
select * from paimon_ods_orders;

建表

建表后,在Gravitino就能看到此表

内容概要:本文系统探讨了CUDA并行计算优化技巧在计算机竞赛中的实战应用,重点解决暴力枚举在大规模数据下超时的问题。通过将独立的解空间验证任务分配给GPU海量线程并发执行,显著提升计算效率。文章围绕图论(全源最短路径Floyd-Warshall算法)和数值计算(多初始值牛顿迭代求解非线性方程)两大高频竞赛场景,详细剖析了线程索引映射、原子操作、常量内存、流并发等核心优化技术,并提供了串行与并行代码对比及性能分析。结果显示,在A100和RTX 3090等GPU上,加速比可达72至150倍,实现从分钟级到秒级甚至毫秒级的性能突破。此外,文章展望了动态并行、多GPU协同、AI辅助调优等未来趋势,强调CUDA优化对培养软硬件协同思维的重要意义。; 适合人群:具备一定C/C++编程基础和算法竞赛经验,熟悉基本图论与数值计算问题,希望提升高性能计算能力的高校学生或竞赛选手(尤其是参与ACM、ICPC、NOI等赛事的1-3年备赛者); 使用场景及目标:①掌握如何将传统暴力枚举算法转化为GPU并行版本;②深入理解Floyd-Warshall和牛顿迭代等经典算法的并行化限制与优化策略;③学习CUDA内存模型、线程组织与同步机制在实际问题中的应用; 阅读建议:建议结合文中代码案例在支持CUDA的环境上动手实现并调试,重点关注线程映射、内存访问模式与数据依赖处理,同时对比串行与并行版本的运行效率,深化对并行计算本质的理解。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值