实践数据湖iceberg 第二课 iceberg基于hadoop的底层数据格式
提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档
文章目录
前言
iceberg底层是如何管理数据,具体每次数据变更,在底层数据结构上发生哪些变化?
本文主要解答这个问题。
观察的方法是:
1.建立catalog, hdfs截图
2.创建表,hdfs截图
3.insert一条数据,hdfs截图,观察元数据和数据的变更
4.再insert一条数据,hdfs截图,观察元数据和数据的变更
5.结论
6.下一步,观察hive catalog
提示:以下是本篇文章正文内容,下面案例可供参考
1、hadoop catalog创建
创建脚本,warehouse的路径,它会自动创建
hdfs路径里面 ns是命名空间,但namenode的使用ip:port代替
在flink-sql client 中执行脚本
sql-client.sh embedded -j /opt/software/iceberg-flink-runtime-0.11.1.jar shell`
1.1 执行建立 catalog脚本
CREATE CATALOG hadoop_catalog2 WITH (
'type'='iceberg',
'catalog-type'='hadoop',
'warehouse'='hdfs://ns/user/hive/warehouse/iceberg_hadoop_catalog2',
'property-version'='1'
);
1.2 查看hdfs 目录
发现:建好warehouse到defalut的目录 /user/hive/warehouse/iceberg_hadoop_catalog2/default


2.建表
2.1 建表
建表语句:
CREATE TABLE `hadoop_catalog2`.`default`.`sample` (
id BIGINT COMMENT 'unique id',
data STRING
);
执行:
Flink SQL> CREATE TABLE `hadoop_catalog2`.`default`.`sample` (
> id BIGINT COMMENT 'unique id',
> data STRING
> );
[INFO] Table has been created.
2.2 查看建表后的目录结构
用命令行查看
[root@hadoop101 software]# hadoop fs -ls -R /user/hive/warehouse/iceberg_hadoop_catalog2/default/sample/
drwxr-xr-x - root supergroup 0 2022-01-13 14:29 /user/hive/warehouse/iceberg_hadoop_catalog2/default/sample/metadata
-rw-r--r-- 2 root supergroup 826 2022-01-13 14:29 /user/hive/warehouse/iceberg_hadoop_catalog2/default/sample/metadata/v1.metadata.json
-rw-r--r-- 2 root supergroup 1 2022-01-13 14:29 /user/hive/warehouse/iceberg_hadoop_catalog2/default/sample/metadata/version-hint.text
浏览器查看:


看看这个两个文件的内容:
[root@hadoop101 software]# hadoop fs -cat /user/hive/warehouse/iceberg_hadoop_catalog2/default/sample/metadata/v1.metadata.json
{
"format-version" : 1,
"table-uuid" : "956e7d6f-7184-4147-990e-90c923c43c2f",
"location" : "hdfs://ns/user/hive/warehouse/iceberg_hadoop_catalog2/default/sample",
"last-updated-ms" : 1642055374103,
"last-column-id" : 2,
"schema" : {
"type" : "struct",
"fields" : [ {
"id"

最低0.47元/天 解锁文章
1420

被折叠的 条评论
为什么被折叠?



