阿华田512
小红书 搜索阿华田512 即可获取所有专栏博客内容
展开
-
paimon实战 -- Flink+Paimon实时湖仓实践案例分享
需求背景目前奥格运营平台提供的下单相关的实时标签(如用户最近一次实物购买时间等),都是基于来加工的,即不考虑用户后续的逆向退款情况。然而,运营同学需要实时圈选出近一段时间未成功购买(未下单或下单后退款)的人群,制定运营策略及发放权益,提高复购率。因此,该需求可以明确为:构建的实时标签。问题分析用户的下单行为和退款行为是有时序性的,因此当用户在下单后发生逆向退款行为时,需要回撤之前的订单结果,并回溯最近一次支付成功且未退款的订单信息。原创 2025-01-06 09:46:52 · 764 阅读 · 0 评论 -
paimon实战 -- paimon表数据写入和查询使用指南
通过设置consumer-id参数,您可以给流作业中的Paimon源表算子赋予一个Consumer ID,其值可以是任意的字符串。Consumer ID第一次创建时,它的起始消费位点根据中的规则确定。后续只要继续使用相同的Consumer ID,即可恢复Paimon表的消费进度。例如,为Paimon源表算子设置名为test-id的Consumer ID的SQL语句示例如下。原创 2024-12-12 16:16:41 · 1002 阅读 · 0 评论 -
paimon实战 -- 数据写入和更新底层数据流转解读
manifest-list-4ccc-c07f-4090-958c-cfe3ce3889e5-1 是增量清单列表(上图中的 manifest-list-1-delta),它包含一组对数据文件进行操作的清单条目,在此情形下指的是 manifest-1-0。manifest-list-4ccc-c07f-4090-958c-cfe3ce3889e5-0 是基础清单列表(上图中的 manifest-list-1-base),实际上是空的。小文件的数量会随着快照的增加而增多,这可能会导致读取性能下降。原创 2024-12-11 09:40:12 · 1177 阅读 · 0 评论 -
paimon实战 -- append表查询性能优化
对于任何数据库查询操作想要查询的性能好,都离不开索引,同样在查询Paimon非主键表的时候,我们可以通过排序过滤、索引过滤等方式提高查询速率。原创 2024-12-11 09:23:26 · 371 阅读 · 0 评论 -
paimon实战 -- Changelog Producer到底有什么用?
其实是不适用的, 上面我们提到 None 模式的流读其实就是读取 L0的文件, 那么我们只要看 L0的文件是否包含 Key 的变更记录. 因为 write buffer 会有合并的逻辑, 所以, 对于 CDC 的数据, L0中可能会是已经在内存合并后的数据. 比如同一个 key 的-U 和+U 消息, 同时写入, 那么在 writer buffer 写入的时候就已经只保留+U 消息了, 所以 None 模式中 L0文件中的数据, 可能已经是合并后的数据, 对于 CDC 的数据也不适用.原创 2024-10-31 09:47:59 · 1247 阅读 · 0 评论 -
paimon实战-- paimon表类型和数据合并方式
Paimon仅支持主键表和Append Only表。由于主键表需要按照主键更新,且要满足各种场景的数据更新,因此针对主键表piamon又提供的表的数据合并引擎。Paimon主键表创建Paimon表时指定了主键(primary key),则该表即为Paimon主键表。语法结构例如,创建一张分区键为dt,主键为dt、shop_id和user_id,分桶数固定为4的Paimon主键表。dt STRING,Paimon主键表中每行数据的主键值各不相同,如果将多条具有相同主键的数据写入Paimon主键表,将根据。原创 2024-08-22 09:28:14 · 1652 阅读 · 0 评论 -
paimon实战 --核心原理和Flink应用进阶
Flink 社区希望能够将 Flink 的 Streaming 实时计算能力和 Lakehouse 新架构优势进一步结合,推出新一代的 Streaming Lakehouse 技术,促进数据在数据湖上真正实时流动起来,并为用户提供实时离线一体化的开发体验。Flink 社区内部孵化了 Flink Table Store (简称 FTS )子项目,一个真正面向 Streaming 以及 Realtime的数据湖存储项目。原创 2024-05-15 15:15:38 · 930 阅读 · 0 评论 -
Paimon实战 -- paimon系统表与审计监控
paimon系统表按照元数据的分类,划分了如下10个系统表,通过系统表可以获取paimon表各维度的元数据和消费组信息。通过收集这些元信息,不仅可以排查问题使用,还可以构建统一的paimon元数据管理和消费组管理平台,比如paimon-web就是通过查询系统表来实现表的元数据管理和展示的,本文将详细介绍各系统表的含义和用途。原创 2024-08-18 08:36:20 · 1425 阅读 · 0 评论 -
Paimon实战 -- paimon原理解析
Apache Paimon 原名 Flink Table Store,2022年1月在 Apache Flink 社区从零开始研发,Flink 社区希望能够将 Flink 的 Streaming 实时计算能力和 Lakehouse 新架构优势进一步结合,促进数据在数据湖上真正实时流动起来,并为用户提供实时离线一体化的开发体验。原创 2024-08-16 09:46:10 · 2936 阅读 · 0 评论