ycjunhua
这个作者很懒,什么都没留下…
展开
-
Apache paimon表管理
默认情况下,不仅checkpoint会导致文件生成,writer的内存(write-buffer-size)耗尽也会将数据flush到DFS并生成相应的文件。使用Flink Writer,每个checkpoint会生成 1-2 个快照,并且checkpoint会强制在 DFS 上生成文件,因此checkpoint间隔越小,会生成越多的小文件。表数据会被物理分片到不同的分区,里面有不同的桶,所以如果整体数据量太小,单个桶中至少有一个文件,建议你配置较少的桶数,否则会出现也有很多小文件。分区的过期时间间隔。原创 2024-10-28 23:42:59 · 490 阅读 · 0 评论 -
Apache paimon 优化
当 num-sorted-run.stop-trigger 变大时,写入停顿将变得不那么频繁,从而提高写入性能。然而,为了避免Sorted Runs的无限增长,当Sorted Run的数量达到阈值时,writer将不得不暂停写入。默认情况下,当单个存储桶中的小文件超过“compaction.max.file-num”(默认50个)时,就会触发compaction。如果这里出现瓶颈(例如同时写入大量分区),可以使用write-manifest-cache缓存读取的manifest数据,以加速初始化。原创 2024-10-28 17:36:07 · 597 阅读 · 0 评论 -
Apache paimon-CDC
paimon支持五种方式通过模式转化数据提取到paimon表中。添加的列会实时同步到Paimon表中准备:必须添加FlinkCDC连接器cp flink-sql-connector-mysql-cdc-3.0.1.jar /opt/module/flink-1.18.0/lib,重启yarn-session集群和sql-client。重启yarn-session集群和sql-client。1)语法说明/bin/flink run \ /path/to/paimon-flink-原创 2024-10-28 00:30:41 · 541 阅读 · 0 评论 -
Apache paimon表操作实战-5
如果Orders(主表)的记录Join缺失,因为customers(查找表)对应的数据还没有准备好。Paimon支持Lookup Join语法,它用于从 Paimon 查询的数据来补充维度字段。要求一个表具有处理时间属性,而另一个表由查找源连接器支持。Lookup Join算子会在本地维护一个RocksDB缓存并实时拉取表的最新更新。查找连接运算符只会提取必要的数据,因此您的过滤条件对于性能非常重要。Paimon 支持 Flink 中具有主键的表和append-only的表查找联接。以下示例说明了此功能。原创 2024-10-25 00:09:37 · 367 阅读 · 0 评论 -
apahce paimon 表操作实战4-系统表
如果需要审计表的changelog,可以使用audit_log系统表。通过tags表可以查询表的标签历史信息,包括基于哪些快照进行标签以及快照的一些历史信息。系统表包含有关每个表的元数据和信息,例如创建的快照和使用的选项。通过snapshots表可以查询表的快照历史信息,包括快照中发生的记录数。可以通过选项表查询DDL中指定的表的选项信息。通过查询快照表,可以了解该表的提交和过期信息以及数据的时间旅行。通过schemas表可以查询该表的历史schema。可以查询特定快照表的文件。-- 查询指定快照的文件。原创 2024-10-23 16:44:08 · 122 阅读 · 0 评论 -
Aapche paion 表实战3-DQL查询表
Paimon会按主键对数据进行排序,从而加快点查询和范围查询的速度。使用复合主键时,查询过滤器最好形成主键的最左边前缀,以获得良好的加速效果。在batch模式中,不返回DELETE记录,因此-D的记录将被删除。默认情况下,Streaming read 在第一次启动时会生成表上的最新快照,并继续读取最新的更改。强烈建议在查询时指定分区和主键过滤器,这将加快查询的数据跳过速度。如果不是分区表,或者无法按分区筛选,可以使用时间旅行的流读取。通过为主键最左边的前缀指定范围过滤器,查询获得了很好的加速。原创 2024-10-23 16:14:19 · 88 阅读 · 0 评论 -
Apache paino DML操作实战
插入的行可以由值表达式或查询结果指定,跟标准的sql语法一致。(5)案例四: 使用--source-sql创建新catalog下的源表,匹配ws_t的id,没匹配上的插入ws_t。(3)案例二: ws_t与ws1匹配id,匹配上的将ws_t中vc加10,ws1中没匹配上的插入ws_t中。(4)案例三: ws_t与ws1匹配id,ws_t中没匹配上的,ts大于4则vc加20,ts=4则删除。(2)案例一: ws_t与ws1匹配id,将ws_t中ts>2的vc改为10,ts原创 2024-10-23 11:58:26 · 330 阅读 · 0 评论 -
Apache paino建表实战
事件时间:事件时间是原表中的一个字段。对于CDC数据来说,比如从MySQL CDC同步的表或者Paimon生成的Changelogs,它们都是完整的CDC数据,包括UPDATE_BEFORE记录,即使你声明了包含分区字段的主键,也能达到独特的效果。当表从Catalog中删除时,其表文件也将被删除,类似于Hive的内部表。创建时间(推荐):创建时间通常是不可变的,因此您可以放心地将其视为分区。在 Paimon Catalog中创建的表就是Paimon的管理表。如果定义了主键,则分区字段必须是主键的子集。原创 2024-10-23 08:30:00 · 475 阅读 · 0 评论 -
Ambari-2.7.4和HDP-3.1.4安装(附Ambari和HDP安装包)
1.、环境及软件准备Ambari-2.7.4和HDP-3.1.4下载 ,提取码:3rwq环境:CentOS7(我这里使用的是CentOS7.9版本)、三台虚拟机,单节点内存13GB、存储80GB软件:mysql5.7+、jdk8、ambari-2.7.4.0-centos7.tar.gz、HDP-3.1.4.0-centos7-rpm.tar.gz、HDP-UTILS-1.1.0.22-centos7.tar.gz1、主机名配置查看hostname2、配置服务器之间免密登录。原创 2024-10-17 14:59:13 · 937 阅读 · 0 评论 -
Apache Paimon Catalog
通过使用Hive Catalog,对Catalog的更改将直接影响相应的hive metastore。通过使用Hive Catalog,对Catalog的更改将直接影响相应的hive metastore。使用hive Catalog通过alter table更改不兼容的列类型时,参见 HIVE-17832。上述配置需要在hive-site.xml中配置,且hive metastore服务需要重启。上述配置需要在hive-site.xml中配置,且hive metastore服务需要重启。原创 2024-10-22 15:45:05 · 671 阅读 · 0 评论 -
apache flink+starrack+paino 打造流批一体数据仓库
创建完表,可以登录 minio:9001地址进行查看数据文件;原创 2024-10-18 16:26:52 · 631 阅读 · 0 评论