CyberData统一元数据服务功能完善,实现了湖仓平台元数据在整个平台的统一管理以及外部数据源元数据的主动发现和多计算引擎间元数据的互通互联。
同时,我们支持跨多元计算场景,以及在元数据基础上的统一数据权限管理和数据湖的自动化优化加速。
满足多元异构大数据计算引擎对元数据的需求。支持与Hive Metastore集成,通过Hive的标准化的元数据能力,为不同的分析计算引擎提供元数据管理和服务;支持基于Spark和Flink的自定义Catalog扩展机制,支持支持更大范围的数据源元数据管理能力,使Spark和Flink引擎能够访问关系型数据库,以及实现与湖仓数据源之间的跨源数据访问。
通过统一调度引擎的能力,满足元数据采集高性能、高可用,通过全文搜索引擎和图引擎能力提高元数据全文快速、高可用查询。
数据血缘支持API自定义血缘模型,灵活性高;基于Antlr语法解析,扩展性高;支持异构数据源间血缘构建;架构简洁,易接入,不强绑定和依赖数据底座引擎;准确率能够达到98%以上。
元数据部署规格可根据用户元数据体量灵活适配。
01 元数据架构设计
元数据统一存储:
MySQL+ElasticSearch+Graph Engine;
统一元数据服务,高度抽象元数据对外API、支持高可用集群部署。
统一Catalogo模型设计优势:
-
支持用户自定义Catalog;
-
同源数据源自动绑定已有Catalog;
-
元数据集中管理,统一Catalog数据目录:规范元数据检索、存储;
-
支持异构数据源间数据交互场景:如通过Catalog数据·目录去做Oracle数据源JOIN MySQL数据源查询;
-
联邦查询:更好的跨数据源的查询。