oo寻梦in记
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【Apache Paimon】-- 1.2.0 版本的Table 类型和 merge engine
摘要:Paimon表分为主键表和非主键表(AppendOnly表)两种类型。主键表支持四种合并机制(Merge Engine):deduplicate(默认去重保留最新)、first-row(保留第一条)、aggregation(聚合计算)和partial-update(增量更新)。非主键表适合日志等无需更新的场景,通过设置bucket=-1可创建高性能的AppendScalable表。不同合并机制适用于不同业务场景,如deduplicate保证数据唯一性,partial-update支持字段级更新。主键表原创 2025-07-18 10:19:21 · 413 阅读 · 0 评论 -
【Apache Paimon】-- flink job 并行度个数决定 bucket 个数
如果不需要对 Paimon表进行即席(OLAP)查询,只需进行批式或流式消费,可以选择配置以下表参数,将数据文件格式改为avro,并关闭采集统计数据,以进一步提高写入作业的效率。,允许至多3个检查点同时进行,主要用于减小部分并发检查点长尾的影响。1、适当减小 sink.parallelism。3、将小文件合并改为完全异步。原创 2025-04-10 11:05:25 · 283 阅读 · 0 评论 -
【Apache Paimon】-- 为什么会使用 apache arrow ?
Paimon 使用 Arrow 主要是为了提升数据处理性能、增强跨语言兼容性、更好地集成大数据生态系统,并利用 Arrow 的高性能计算和高效数据共享能力。原创 2025-03-04 14:50:48 · 347 阅读 · 0 评论 -
【Apache Paimon】-- Flink 消费 kafka 数据异常
发现 Step1和 2 正常,但 Step 3 未配置。初次消费 kafka topic 数据时,需要配置 为 earliest 或者 latest。不能配置 NONE!Step.1 检查 kafka server 是否可用:telnet locahost:9092。配置 auto.offset.reset = earliest,再次启动即可!Step.3 检查 auto.offset.reset 是否有配置。Step.2 检查 kafka topic 是否存在。原创 2025-02-18 17:06:41 · 542 阅读 · 0 评论 -
【数据湖仓】:Iceberg、Hudi 和 Paimon 对比
适用于需要多计算引擎支持和复杂查询的离线批处理场景。其中立性和灵活性使其成为构建新型数据平台的理想选择。:在需要高频数据更新和高效小文件管理的场景中表现出色,适合实时数据处理和增量数据更新的业务需求。:专为实时流式数据处理设计,适用于对数据实时性要求高的业务场景,如实时数据分析和实时指标监控。通过以上分析,可以看出 Apache Iceberg、Apache Hudi 和 Apache Paimon 各有其独特的优势和适用场景。企业应根据自身业务需求和技术栈选择合适的数据湖仓方案,以充分发挥其价值。原创 2025-02-17 11:52:52 · 1148 阅读 · 0 评论 -
【Apache Paimon】-- 16 -- 利用 paimon-flink-action 同步 kafka 数据到 hive paimon 表中
CDC(Change Data Capture)是一种用于捕获数据库变更的技术。它能够实时捕获数据库中的插入、更新和删除操作,并将这些变更数据传递给下游系统进行处理。原创 2025-02-12 15:22:45 · 610 阅读 · 0 评论 -
【Apache Paimon】-- 15 -- 利用 paimon-flink-action 同步 postgresql 表数据
在Paimon 诞生以前,若 mysql/pg 等数据源的表结构发生变化时,我们有几种处理方式2.2、flink 运行依赖第三方包3.2、hive 3.1.3 集成 paimon 0.9.03.3、部署 flink 1.19.1 standalone 节点3.4、部署 postgresql3.4.1 安装3.4.2 配置新增3.4.3 启动4、启动环境4.1、启动 hive(1)mac os 环境下需要设置允许远程登录:设置 —> ssh remote logins:原创 2025-02-07 10:22:40 · 517 阅读 · 0 评论 -
【Apache Paimon】-- 源码解读之 PaimonSparkSessionExtensions
是 Apache Spark 提供的一个配置参数,允许用户通过扩展 Spark 的 SQL 解析器、分析器、优化器和执行计划,来自定义 Spark SQL 的行为。的核心功能是通过扩展 Spark SQL 的各个阶段(解析、分析、优化、执行)来支持 Paimon 的特定功能和优化。,用户可以注册扩展类来修改或增强 Spark SQL 的功能,比如注入自定义解析规则、优化规则、计划策略等。,为 Spark SQL 注入了 Paimon 特定的语法、分析规则、优化器规则和执行策略。扩展的核心是通过实现。原创 2025-01-15 11:21:25 · 616 阅读 · 0 评论 -
【Apache Paimon】-- 源码解读之环境问题
确保 ANTLR 的语法文件正确生成了JavaParser和JavaLexer。确认 ANTLR 运行时依赖已包含在项目中。检查包路径是否一致。确认 IDE 和构建工具配置无误。原创 2025-01-14 11:33:31 · 564 阅读 · 0 评论 -
【Apache Paimon】-- 14 -- Spark 集成 Paimon 之 Filesystem Catalog 与 Hive Catalog 实践
【代码】【Apache Paimon】-- Spark 集成 Paimon 之 Filesystem Catalog 与 Hive Catalog 实践。原创 2025-01-09 11:28:26 · 1640 阅读 · 0 评论 -
【Apache Paimon】-- Paimon Filesysterm Catalog 和 Hive Catalog 的适用场景
Filesystem Catalog 是 Apache Paimon 的内置 Catalog,它将元数据直接存储在文件系统中(如 HDFS、S3、本地文件系统等)。Hive Catalog 是基于 Hive Metastore 的 Catalog,实现了 Apache Paimon 和 Hive 生态系统的深度集成。Apache Paimon 提供了多种 Catalog(元数据管理)方式,用于统一管理表的元数据,如表结构、存储位置、分区等。原创 2025-01-09 10:10:23 · 807 阅读 · 0 评论 -
【Apache Paimon】-- 为什么选择将 Spark 与 Paimon 集成,解决什么问题?
这种集成非常适合用于需要流批处理、数据更新、事务一致性的现代大数据分析场景。原创 2025-01-09 10:06:43 · 704 阅读 · 0 评论 -
【Apache Paimon】-- 13 -- 利用 paimon-flink-action 同步 mysql 表数据
在Paimon 诞生以前,若 mysql/pg 等数据源的表结构发生变化时,我们有几种处理方式(1)人工通知(比如常规的使用邮件),然后运维人员手动同步到数据仓库中(2)使用 flink 消费 DDL binlog ,然后自动更新 Hive 的外部表和内部表 schema那么现在,有了 Paimon ,我们可以利用其特性,自动识别并同步 DDL 这些变化,并同步至 hive 的 paimon 格式表中。原创 2025-01-07 17:03:45 · 1037 阅读 · 0 评论 -
【Apache Paimon】-- 12 -- Paimon 表的目录
分区:用于组织数据,提高查询效率。index:用于快速定位数据。manifest:记录数据文件的元信息,便于增量更新。schema:支持表结构的管理与演化。snapshot:提供表的历史版本,支持事务性查询和时间旅行功能。通过这些目录,Paimon 能够实现湖存储的高效性和强事务能力,非常适合大规模数据分析与流批一体化场景。主键表需要额外维护索引index目录)。数据文件的写入方式不同:主键表涉及更新和删除,非主键表仅追加写入。manifest 文件和快照内容稍有区别。原创 2024-12-25 15:13:40 · 502 阅读 · 0 评论 -
【Apache Paimon】-- 11 -- Flink 消费 kakfa 写 S3 File
hadoopConfig.set("aws.region","你的 s3 region,比如:us-west-1");因为它对周边生态(如 Hive、Paimon、Spark等)的兼容性较好!2.2 本地测试或者 flink on k8s 时,新增 S3FileSystemFactory.java。(2)生产环境时,需要在 ${FLINK_HOME}/conf/config.yaml 中新增。第一步:创建包=org.apache.flink.fs.s3hadoop。2.1 pom.xml 新增依赖。原创 2024-12-22 18:19:11 · 917 阅读 · 0 评论 -
【Apache Paimon】-- 10 -- Paimon 0.9.0 集成 Hive 3.1.3
参考官方 0.9.0 版本文档:https://paimon.apache.org/docs/0.9/engines/hive/原创 2024-12-16 10:10:01 · 1039 阅读 · 0 评论 -
【Hive】-- hive 3.1.3 伪分布式部署(单节点)
hadoop3的默认端口:https://www.stefaanlippens.net/hadoop-3-default-ports.html。hadoop3默认端口:https://blog.youkuaiyun.com/high2011/article/details/144406887。访问 namenode:http://localhost:9870/dfshealth.html#tab-overview。访问 yarn:http://localhost:8088/cluster/nodes。原创 2024-12-13 15:44:21 · 605 阅读 · 0 评论 -
【Apache paimon】-- 集成 hive3.1.3 异常
但 apache paimon 0.9.0 使用的 zstd-jni-1.5.5-11.jar,版本更高,所以,我们需要将低版本的包替换为高版本的包。(3)将 target/my_zstd_luben.jar 复制到 $HIVE_HOME/lib/Step1:在 hive cli beeline 执行创建 hive paimon 表。Step3:重启 hiveserver2 和 hive metastore。Step2:搜索job 使用的 zstd jar 版本。Step3:定位 hive lib 目录。原创 2024-12-13 13:05:46 · 1050 阅读 · 0 评论 -
【Apache Paimon】-- 9 -- 通过 maxcompute 创建 paimon 外部表
即 flink 写入 paimon 表(OSS 作为 filesystem)原创 2024-12-09 14:53:43 · 1151 阅读 · 0 评论 -
【Apache Paimon】-- 8 -- flink 创建 paimon connecor 的两种方式
2、必须要配置 path、connector。临时表的元数据不持久化,无法在会话外部访问。1、只能用于创建 temporary 表。1、创建 catalog。原创 2024-12-05 13:53:39 · 732 阅读 · 0 评论 -
【Apache Paimon】-- 异常 java.lang.NoClassDefFoundError: org/apache/hadoop/hdfs/HdfsConfiguration
Step 1:在项目任意 class 下 import 导入 class。开始一个一个导入 pom.xml 尝试,最终导入以下依赖,问题解决。2、在 Intellij idea 2023 中执行后,异常如下。Step 2:到 maven 仓库查找 hdfs 的相关包。发现 hadoop-hdfs 前缀的包,有多个。1、集成 flink 执行的 DDL 如下。发现缺少 hdfs 的 jar 包。原创 2024-12-04 17:31:10 · 413 阅读 · 0 评论 -
【Apache paimon】-- 7 -- tag 创建与管理
apache paimon 的快照提供了一种非常容易访问历史数据的方法,但 flink job 会生成太多快照。我们通过 tag 策略可以保留重要的快照,删除不重要的 snapshot。创建 tag 的快照,在进入过期清除流程时,快照的元数据与数据文件仍会被持续保存。当快照过期后,利用 tag 仍能追溯查询到特定时间点的数据。在实践中,我们通常每日生成一个 tag ,能够确保对每一天历史数据的持久访问能力,为数据分析、审计和追溯等应用场景提供了支撑。原创 2024-11-22 15:43:07 · 980 阅读 · 0 评论 -
【Apache Paimon】-- 6 -- 清理过期数据
清理 paimon (表)过期数据可以释放存储空间,优化资源利用并提升系统运行效率等。原创 2024-11-20 16:49:25 · 1066 阅读 · 0 评论 -
【Apache Paimon】-- 5 -- Flink 向 Paimon 表写入数据
当warehouse指定的OSS Bucket与Flink工作空间不在同一地域,或使用其它账号下的OSS Bucket时需要填写。如果Flink与DLF位于同一地域,则使用VPC网络Endpoint,否则使用公网Endpoint。filesystem:配置为Paimon Filesystem Catalog类型时填写。sync:配置为Paimon Sync Catalog类型时填写。格式为oss:///。bucket:表示您创建的OSS Bucket名称。原创 2024-11-20 13:50:43 · 909 阅读 · 0 评论 -
【Apache Paimon】-- 4 -- Flink 消费 kafka 数据,然后写入 oss paimon表
注意:此案例以阿里云 OSS 作为 checkpoint 和 apache paimon 的存储介质,存储格式默认为 parquet。// Step 3、若使用 oss 作为 ckp/sep 的存储介质,需要加载 flink checkpoint 全局变量。注意:需要在项目 package 中创建包结构(org.apache.flink.fs.osshadoop)// Step 2、生成随机字符串,用于默认 checkpoint 或者 savepoint 存储路径。// Step 1、解析输入的参数。原创 2024-12-05 16:13:56 · 2265 阅读 · 1 评论 -
【Apache Paimon】-- 3 -- 基本概念
表的所有文件都存储在一个基本目录下。Paimon文件以分层的方式组织。下图说明了文件布局。从快照文件开始,Paimon读取器可以递归地访问表中的所有记录。原创 2024-11-18 14:50:05 · 360 阅读 · 0 评论 -
【Apache Paimon】-- 2 -- 核心特性 (0.9.0)
用户可以随心所欲地更新记录。复制以保留最后一行,或部分更新,或汇总记录,或第一行,提供了很灵活的处理方式,总之可以用户自己决定。主键表合并机制详情(1)去重(Deduplicate)去重机制(deduplicate)是默认的数据合并机制。对于多条具有相同primary key的数据,Paimon结果表仅会保留最新一条数据,并丢弃其它具有primary key的数据。说明如果最新一条数据是一条delete消息,所有具有该primary key的数据都将被丢弃。原创 2024-11-18 14:14:54 · 1107 阅读 · 0 评论 -
【Apache Paimon】-- 1 -- Apache Paimon 是什么?
我们听说过数据仓库、数据湖、数据湖仓,那你听说过流式数据仓库(Stream warehouse,简称:Streamhouse)吗?那我们今天就来解锁看看他们之中的新秀: Apache paimon 到底是什么。德国柏林理工大学的学生于2008年创建了 Flink 的前身,2014年 Flink 1.0 版本发布,到 2019年于阿里 blink 合并,并于2020年收购了 Flink 的母公司 Data Artisans,并创建了 Ververica(商业公司)。原创 2024-11-14 18:12:36 · 1128 阅读 · 0 评论 -
【Apache Paimon】-- 作为一名小白,如何系统地学习 Apache paimon?
这些任务分阶段进行了详细拆解,从基础的安装、配置,到深入的性能优化、生产环境部署,再到进阶的扩展与社区贡献,涵盖了学习 Apache Paimon 的各个方面。建议可以按照这些任务逐步深入学习,逐步成为 Paimon 的专家。原创 2025-02-11 09:28:54 · 1055 阅读 · 0 评论
分享