实践数据湖iceberg 第二课 iceberg基于hadoop的底层数据格式

最新推荐文章于 2024-09-15 21:07:00 发布

原创

最新推荐文章于 2024-09-15 21:07:00 发布 · 3.7k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#hadoop #hdfs #big data

实践数据湖iceberg 第二课 iceberg基于hadoop的底层数据格式

提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

实践数据湖iceberg 第二课 iceberg基于hadoop的底层数据格式
前言
1、hadoop catalog创建
- 1.1 执行建立 catalog脚本
- 1.2 查看hdfs 目录
2.建表
- 2.1 建表
- 2.2 查看建表后的目录结构
1.写入数据
总结

前言

iceberg底层是如何管理数据，具体每次数据变更，在底层数据结构上发生哪些变化？
本文主要解答这个问题。
观察的方法是：
1.建立catalog, hdfs截图
2.创建表，hdfs截图
3.insert一条数据，hdfs截图，观察元数据和数据的变更
4.再insert一条数据，hdfs截图，观察元数据和数据的变更
5.结论
6.下一步，观察hive catalog

提示：以下是本篇文章正文内容，下面案例可供参考

1、hadoop catalog创建

创建脚本，warehouse的路径，它会自动创建
hdfs路径里面 ns是命名空间，但namenode的使用ip:port代替
在flink-sql client 中执行脚本

sql-client.sh embedded -j /opt/software/iceberg-flink-runtime-0.11.1.jar shell`

1.1 执行建立 catalog脚本

CREATE CATALOG hadoop_catalog2 WITH (
  'type'='iceberg',
  'catalog-type'='hadoop',
  'warehouse'='hdfs://ns/user/hive/warehouse/iceberg_hadoop_catalog2',
  'property-version'='1'
);

1.2 查看hdfs 目录

发现：建好warehouse到defalut的目录 /user/hive/warehouse/iceberg_hadoop_catalog2/default
在这里插入图片描述

请添加图片描述

2.建表

2.1 建表

建表语句：

CREATE TABLE `hadoop_catalog2`.`default`.`sample` (
    id BIGINT COMMENT 'unique id',
    data STRING
);

执行：

Flink SQL> CREATE TABLE `hadoop_catalog2`.`default`.`sample` (
>     id BIGINT COMMENT 'unique id',
>     data STRING
> );
[INFO] Table has been created.

2.2 查看建表后的目录结构

用命令行查看

[root@hadoop101 software]# hadoop fs -ls -R /user/hive/warehouse/iceberg_hadoop_catalog2/default/sample/
drwxr-xr-x   - root supergroup          0 2022-01-13 14:29 /user/hive/warehouse/iceberg_hadoop_catalog2/default/sample/metadata
-rw-r--r--   2 root supergroup        826 2022-01-13 14:29 /user/hive/warehouse/iceberg_hadoop_catalog2/default/sample/metadata/v1.metadata.json
-rw-r--r--   2 root supergroup          1 2022-01-13 14:29 /user/hive/warehouse/iceberg_hadoop_catalog2/default/sample/metadata/version-hint.text

浏览器查看：
在这里插入图片描述

看看这个两个文件的内容：

[root@hadoop101 software]# hadoop fs -cat /user/hive/warehouse/iceberg_hadoop_catalog2/default/sample/metadata/v1.metadata.json
{
   
   
  "format-version" : 1,
  "table-uuid" : "956e7d6f-7184-4147-990e-90c923c43c2f",
  "location" : "hdfs://ns/user/hive/warehouse/iceberg_hadoop_catalog2/default/sample",
  "last-updated-ms" : 1642055374103,
  "last-column-id" : 2,
  "schema" : {
   
   
    "type" : "struct",
    "fields" : [ {
   
   
      "id"