paimon
文章平均质量分 81
JNWsong
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
paimon中的Branch
paimon借鉴了git的管理机制,在我们开发代码的时候,为了不影响主分支的功能,我们一般会新建一个分支进行迭代,待新分支完善后,合并回主分支,在新的分支做任何数据操作都不会影响主分支。在paimon中,我们也可以对表创建分支,相当于在当前数据状态下复制出来了一张新的表,我习惯称 新建的表叫做分支表,原表称为主表,两表互不影响,而且能够从分支表上进行合并,将分支表的数据覆盖到主表。原创 2024-12-20 10:56:21 · 506 阅读 · 0 评论 -
paimon中的Tag
在传统数仓场景中,从传统数据库中导入的事实表数据一般是全量导入,按天分区每天都存储一份全量数据,paimon对此提供了Tag机制,创建TAG时,会对当前数据做一份全量快照,在之后对表的数据进行更新也不会影响已经打完TAG的数据。其实就是对当前的数据做镜像,或者说做备份。原创 2024-12-20 15:05:31 · 603 阅读 · 0 评论 -
paimon0.9记录
【代码】paimon0.9记录。原创 2024-12-04 17:43:19 · 1151 阅读 · 0 评论 -
LSM Tree 底层设计理念
LSM Tree的存写过程!原创 2024-11-29 17:06:51 · 736 阅读 · 0 评论 -
paimon的四种changelog模式(4)-full-compaction模式
# 结论- changelog=full-compaction模式相比于lookup模式区别在于changelog的生成时间 - lookup模式:一次checkpoint产生一次changelog,数据延迟小,资源消耗大 - full-compaction模式:n次checkpoint产生一次changelog,数据延迟大,资源消耗小# 应用场景- 非cdc采集的表(不能完整的提供数据变化流)- and- 后期要进行流式处理的表- and- 不在乎数据延迟的场景原创 2024-11-28 10:47:16 · 1309 阅读 · 0 评论 -
paimon的四种changelog模式(3)-lookup模式
# 结论- changelog=lookup的情况下,一次操作产生两个个data文件的同时(第一次只会产生一个),也会产生一个changelog文件- changelog文件内容,会查询变化前的数据,并对比变化后数据,自动生成一份chagelog。`相比input模式,这就是lookup的最大区别,他会自己产生正确的changelog,而不管你的输入数据是否符合规范`- lookup模式针对于不是cdc采集的表,而且要用于流式处理的表# 应用场景- 非cdc采集的表- and- 后期要进行流式原创 2024-11-27 17:14:12 · 1515 阅读 · 1 评论 -
paimon的四种changelog模式(2)-none模式
# 结论- changelog=node的情况下,一次操作产生一个data文件的,不会产生一个changelog文件- changelog=node的情况下,流式读取结果是正确的,虽然不像input模式有changelog,但是paimon会记录每次操作产生的快照,根据不同版本的快照数据,经过汇总能够推断出changelog,这个changelog是每次流式处理该表时,加载到flink状态中的(内存)- 因此这个none模式的changelog实际上是不够稳定的,而且比较耗费运算资源,但是非常省存储资原创 2024-11-27 16:12:07 · 840 阅读 · 0 评论 -
paimon的四种changelog模式(1)-input模式
# 结论- changelog=input的情况下,一次操作产生一个data文件的同时,也会产生一个changelog文件- changelog文件内容和data文件内容完全一致- input 情况下,如果你的操作不完整,那么流式读取的结果也是不对的 - 上述操作insert2次相同主键,按照主键表的逻辑,应该是会出现-D +I 或者 -U +U 的场景,但是由于input模式,不会额外的处理changelog,你insert两次,我的changelog就写两次insert,你流式读取,那我就重原创 2024-11-27 14:42:35 · 1152 阅读 · 0 评论 -
paimon,基础查询语句测试
paimon,基础查询语句测试。原创 2024-10-08 18:08:13 · 667 阅读 · 0 评论
分享