Apache Iceberg与Nessie集成深度解析-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00429/article/details/148488152

Apache Iceberg与Nessie集成深度解析

iceberg Apache Iceberg 项目地址: https://gitcode.com/gh_mirrors/iceberg4/iceberg

什么是Nessie

Nessie是一个开源的分布式版本控制系统，专为数据湖设计。它为数据湖表提供了类似Git的版本控制能力，包括分支、标签、提交等操作。与Iceberg集成后，Nessie为Iceberg表带来了以下核心能力：

多表事务支持
Git风格的版本控制操作
类似Hive元数据存储的功能

集成配置指南

环境准备

Iceberg从0.11.0版本开始，Spark和Flink运行时已内置iceberg-nessie模块。要开始使用，只需将Iceberg运行时添加到你的处理环境中。

Spark环境配置示例

对于Spark 3.3和Scala 2.12环境：

spark-sql \
  --packages "org.apache.iceberg:iceberg-spark-runtime-3.3_2.12:{{ icebergVersion }},org.projectnessie.nessie-integrations:nessie-spark-extensions-3.3_2.12:{{ nessieVersion }}" \
  --conf spark.sql.extensions="org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions,org.projectnessie.spark.extensions.NessieSparkSessionExtensions"

Nessie Catalog配置

Nessie Catalog是Iceberg 0.11.0引入的重要特性，它允许通过Spark和Flink轻松与自定义Catalog交互。配置Nessie Catalog需要以下关键属性：

warehouse：Catalog存储表的文件路径
uri：Nessie服务器基础URI（如http://localhost:19120/api/v2）
ref（可选）：要使用的Nessie分支或标签

Java代码示例

Map<String, String> options = new HashMap<>();
options.put("warehouse", "/path/to/warehouse");
options.put("ref", "main");
options.put("uri", "https://localhost:19120/api/v2");
Catalog nessieCatalog = CatalogUtil.loadCatalog(
    "org.apache.iceberg.nessie.NessieCatalog", 
    "nessie", 
    options, 
    hadoopConfig);

Spark配置示例

conf.set("spark.sql.catalog.nessie.warehouse", "/path/to/warehouse");
conf.set("spark.sql.catalog.nessie.uri", "http://localhost:19120/api/v2")
conf.set("spark.sql.catalog.nessie.ref", "main")
conf.set("spark.sql.catalog.nessie.type", "nessie")
conf.set("spark.sql.catalog.nessie", "org.apache.iceberg.spark.SparkCatalog")

Flink Python API配置示例

table_env.execute_sql("CREATE CATALOG nessie_catalog WITH ("
                    "'type'='iceberg', "
                    "'type'='nessie', "
                    "'uri'='http://localhost:19120/api/v2', "
                    "'ref'='main', "
                    "'warehouse'='/path/to/warehouse')")