大数据启示录
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
十万长文学Fluss----(下篇)
本次主要验证 FLuss Lookup 功能;测试过程中,也测试了 Fluss 的更新删除功能,目前还有待完善;同时测试了,当维表为空时,输出的 join 字段为null,后续补齐维表后,先前写入的数据未作补齐的场景;所以在使用该功能时,需要先将维表数据进行补全,否则无法关联;同时也引入了新的问题;当我的维表数据进行更新时应该如何斜接;当前的分区方式,需要保证在0点前更新后一天的数据,但是现实场景来看,维表的更新一般在0点后,所有可能在0点到维表更新的时间端可能无法关联的问题。提供与 Paimon 的集成。原创 2025-03-08 19:18:37 · 92 阅读 · 0 评论 -
十万长文学Fluss----(中篇)
Offset 切换点:- Paimon 快照与 Fluss Offset 的映射是避免重复读取的核心。- 在联合读取时,Paimon 提供稳定数据,Fluss 提供实时更新,二者结合提升实时性和一致性。主键去重:- 主键去重确保每个主键只保留最新的数据。- 通过覆盖相同主键记录,保证数据的最终一致性。原创 2025-03-08 18:32:57 · 126 阅读 · 0 评论 -
十万长文学Fluss---(上篇)
fluss 湖流一体原创 2025-03-08 14:35:52 · 270 阅读 · 0 评论 -
Flink CDC pipline实践(2)--- 整库同步Paimon 按天分区
【代码】Flink CDC pipline(2)--- 整库同步Paimon 按天分区。原创 2025-02-15 19:10:10 · 250 阅读 · 0 评论 -
Flink性能优化小结
可以通过开启缓冲消胀机制来简化 Flink 网络的内存配置调整。您也可能需要调整它。如果这不起作用,您可以关闭缓冲消胀机制并且人工地配置内存段的大小和缓冲区个数。针对第二种场景,我们推荐:使用默认值以获得最大吞吐减少内存段大小、独占缓冲区的数量来加快 checkpoint 并减少网络栈消耗的内存量。原创 2024-01-10 19:47:26 · 1819 阅读 · 0 评论 -
使用paimon-flink-action 同步 postgresql到hive
为确保对较早 LSN 偏移量的访问以进行作业恢复,我们通过 scan.lsn-commit.checkpoints-num-delay (默认值为 3 )检查点延迟 LSN 提交。当配置选项 scan.incremental.snapshot.enabled 设置为 true 时,此功能可用。一个典型场景是将表‘source_table’拆分为模式‘source_schema1’,‘source_schema2’……,然后您可以将所有‘source_table’的数据同步到一个 Paimon 表中。原创 2025-02-16 07:07:31 · 84 阅读 · 0 评论 -
Iceber学习之路(1)---介绍
Iceberg是一个面向海量数据分析场景的开放 表格式(Table Format)。表格式可以理解为元数据以及数据文件的一种组织方式,处于计算框架(Flink,Spark…)之下,数据文件之上。可以跟一些主流的框架做集成。原创 2025-02-15 21:34:11 · 127 阅读 · 0 评论 -
云原生之Flink Native Kubernetes+Dinky 实时计算平台架设实践
云原生flink流计算平台解决方案验证该架设方案全部基于云原生k8s,通俗讲就是 flink任务跑在k8s上。原创 2025-02-15 19:44:20 · 99 阅读 · 0 评论 -
Flink CDC+Dinky整库同步到paimon
本文主要讲述的是通过flink CDC +Dinky 同步mysql数据到paimon中自动建表的实践。Dinky通过定义CDCSOURCE语法,可以直接自动构建一个整库入仓入湖的实时任务,避免了大量的数据库连接和DDL编写,同时采用多source合并的优化策略,减少了同一作业中的source数量,避免了Binlog的重复读取,从而减轻了源库的压力。从而减轻了源库的压力。CDCSOURCE 语句用于将上游指定数据库的所有表的数据采用一个任务同步到下游系统。原创 2025-02-15 19:20:04 · 248 阅读 · 0 评论 -
Paimon-flink-action同步数据到Paimon
本文主要实现使用paimon自带的paimon-flink-action工具,同步mysql数据到StarRocks验证。paimon-flink-action是一个封装了多种高级功能的Apache Paimon的Flink action jar包。这个包内部包含了诸如merge into、compact、delete、drop_partition等功能,主要用于支持复杂的数据操作和数据处理任务。原创 2025-02-15 19:27:36 · 239 阅读 · 0 评论 -
Flink CDC pipline实践(1)---整库同步到StarRocks
flink cdc pipeline+dinky 整库同步数据到starrocks原创 2025-02-15 19:02:17 · 249 阅读 · 1 评论 -
Flink & Paimon & StarRocks & Dinky 湖仓一体分层验证
本文主要从0到1,构建湖仓一体的完整demo验证原创 2025-02-15 15:52:29 · 1175 阅读 · 0 评论