
Paimon
文章平均质量分 92
AIMaynor
个人博客:maynor1024.live,ai网站: vlink.cc/maynorai
展开
-
5小时玩转阿里云实时计算Flink实时湖仓之代码文档
解决方案:将Task Managers 数量调整为2或者以上,也可以将TaskManager的Cpu cores设置更大一些。Task Managers 数量原来是1,由于数据量大带来的计算量大一些,需要调大一些,这里修改为2或以上。由于免费资源领取ecs服务器1核2g内存,所以运行组件较多的时候,建议重启ecs云服务器在开启服务。和RDS的MySQL的bxg.oe_order表的条数一致即可。#指定 kafka的绑定监听的地址。#指定Kafka数据的位置。#指定broker的id。查看Topic的数据。原创 2023-08-25 16:11:30 · 339 阅读 · 0 评论 -
流数据湖平台Apache Paimon(六)集成Spark之DML插入数据
不能将另一个表的可为空列插入到一个表的非空列中。通过tags表可以查询表的标签历史信息,包括基于哪些快照进行标签以及快照的一些历史信息。通过snapshots表可以查询表的快照历史信息,包括快照中发生的记录数。插入的行可以由值表达式或查询结果指定,跟标准的sql语法一致。系统表包含有关每个表的元数据和信息,例如创建的快照和使用的选项。Paimon的批量读取返回表快照中的所有数据。可以通过选项表查询DDL中指定的表的选项信息。通过查询快照表,可以了解该表的提交和过期信息以及数据的时间旅行。原创 2023-08-07 08:00:00 · 580 阅读 · 0 评论 -
流数据湖平台Apache Paimon(五)集成 Spark 引擎
表可以通过查询的结果创建和填充,例如,我们有一个这样的sql: CREATE TABLE table_b AS SELECT id, name FORM table_a, 生成的表table_b将相当于创建表并插入数据以下语句:CREATE TABLE table_b(id INT, name STRING);下载地址:https://repository.apache.org/snapshots/org/apache/paimon/paimon-spark-3.3/0.5-SNAPSHOT/原创 2023-08-06 19:00:00 · 998 阅读 · 0 评论 -
流数据湖平台Apache Paimon(四)集成 Hive 引擎
支持 Hive Read 的 MR 和 Tez 执行引擎,以及 Hive Write 的 MR 执行引擎(beeline也不支持hive write)。前面与Flink集成时,通过使用 paimon Hive Catalog,可以从 Flink 创建、删除、查询和插入到 paimon 表中。要访问现有的 paimon 表,还可以将它们注册为 Hive 中的外部表,不需要指定任何列或表属性,只需要指定路径。更进一步的与 Hive 集成,可以使用 Hive SQL创建、查询Paimon表。原创 2023-08-06 14:34:42 · 1820 阅读 · 0 评论 -
流数据湖平台Apache Paimon(三)Flink进阶使用
默认情况下,不仅checkpoint会导致文件生成,writer的内存(write-buffer-size)耗尽也会将数据flush到DFS并生成相应的文件。稍后可能会发生异步Compaction,CompactManager 生成的提交表包含有关先前文件和合并文件的信息,以便 Committer Operator 可以构造相应的清单条目。Paimon维护文件的多个版本,文件的Compaction和删除是逻辑上的,并没有真正删除文件。如果要减少此数量,可以保留更少的文件,但写入性能可能会受到影响。原创 2023-07-29 22:42:05 · 3030 阅读 · 0 评论 -
流数据湖平台Apache Paimon(二)集成 Flink 引擎
Paimon目前支持Flink 1.17, 1.16, 1.15 和 1.14。本课程使用Flink 1.17.0。环境准备1)上传并解压Flink安装包tar -zxvf flink-1.17.0-bin-scala_2.12.tgz -C /opt/module/2)配置环境变量sudo vim /etc/profile.d/my_env.shexport HADOOP_CLASSPATH=source /etc/profile.d/my_env.sh1)下载并上传Paimon的jar包jar包下载地址原创 2023-07-29 22:38:56 · 2461 阅读 · 0 评论 -
流数据湖平台Apache Paimon(一)概述
Flink 社区希望能够将 Flink 的 Streaming 实时计算能力和 Lakehouse 新架构优势进一步结合,推出新一代的 Streaming Lakehouse 技术,促进数据在数据湖上真正实时流动起来,并为用户提供实时离线一体化的开发体验。Flink 社区内部孵化了 Flink Table Store (简称 FTS )子项目,一个真正面向 Streaming 以及 Realtime的数据湖存储项目。原创 2023-07-29 22:08:26 · 3272 阅读 · 8 评论