
Iceberg
文章平均质量分 88
jast_zsh
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
数据湖Iceberg-FlinkSQL-kafka类型表数据无法成功写入(6)
数据湖Iceberg-FlinkSQL-kafka类型表数据无法成功写入版本问题问题原因解决方法。Kafka类型的Iceberg表创建完成后,通过语句写入其他表中执行成功,但是没数据。如果都在我们自己创建的catalog下创建,则执行。下,否则kafka类型的表读取不到数据。下,写入数据的表在我们自己创建的。查看表中数据可以看到写入成功。所以这里我们kafka表在。查看表中数据,发现修改成功。当前版本的BUG(存疑),数据库(命名空间)为。Kafka表必须要在。原创 2023-04-24 23:45:00 · 708 阅读 · 1 评论 -
数据湖Iceberg-FlinkSQL集成(5)
相反,如果您使用的是独立模式,Flink SQL Client 会连接到一个已经运行的 Flink 集群。在嵌入式模式下,Flink SQL Client 会自动启动一个 Flink 集群,无需手动启动,直接在命令行中交互式地输入 SQL 命令进行查询和操作。hive-conf-dir:包含hive-site.xml配置文件的目录路径,hive-site.xml中hive.metastore.warehouse.dir 的值会被warehouse覆盖。在指定的表后面追加的动态参数会自动追加到原表定义中。原创 2023-04-24 23:45:00 · 4391 阅读 · 0 评论 -
数据湖Iceberg-SparkSQL集成(4)
Spark安装包下载地址:https://mirrors.huaweicloud.com/apache/sparkiceberg官网:https://iceberg.apache.org/releases/#110-release1.Spark与Iceberg的版本对应关系如下2.上传并解压Spark安装包修改目录名为3.配置环境变量4.拷贝iceberg的jar包到Spark的jars目录iceberg-sparkjar包下载地址:https://search.maven.org/remotecon原创 2023-04-24 23:45:00 · 1459 阅读 · 0 评论 -
数据湖Iceberg-存储结构(2)
Manifest file也是一个元数据文件,它列出组成快照(snapshot)的数据文件(data files)的列表信息。每行都是每个数据文件的详细描述,包括数据文件的状态、文件路径、分区信息、列级别的统计信息(比如每列的最大最小值、空值数等)、文件的大小以及文件里面数据行数等信息。 快照代表一张表在某个时刻的状态。数据文件是Apache Iceberg表真实存储数据的文件,一般是在表的数据存储目录的data目录下,如果我们的文件格式选择的是parquet,那么文件是以“.parquet”结尾。原创 2023-04-24 23:30:00 · 663 阅读 · 0 评论 -
数据湖Iceberg-简介(1)
为了解决数据存储和计算引擎之间的适配的问题,Netflix开发了Iceberg,2018年11月16日进入Apache孵化器,2020 年5月19日从孵化器毕业,成为Apache的顶级项目。Iceberg是一个面向海量数据分析场景的开放表格式(Table Format)。表格式(Table Format)可以理解为元数据以及数据文件的一种组织方式,处于计算框架(Flink,Spark…)之下,数据文件之上。原创 2023-04-24 23:30:00 · 684 阅读 · 0 评论