Paimon
文章平均质量分 91
paimon
周游00
拥有多年经验的大数据开发工程师,专注于实时计算、数据仓库、数据挖掘,大模型等。
我致力于分享大数据领域的技术干货和实践经验
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Paimon主键表的合并机制
Paimon主键表提供三种数据合并机制:1) deduplicate(默认)保留最新数据并删除旧数据,支持删除操作;2) first-row保留首条数据,效率更高但不处理删除操作;3) partial-update支持增量更新,保留非空列值。特殊场景下可通过sequence字段控制合并顺序,或通过aggregation函数实现聚合操作。每种机制各有特点,需根据业务需求选择,如deduplicate适合简单去重,partial-update适合列式更新场景,first-row适合仅需保留首次数据的场景。原创 2025-07-25 14:39:43 · 1087 阅读 · 0 评论 -
Paimon Action Jars原子化的数据管理
Apache Paimon 通过 Flink Action Jars 提供原子化的数据管理能力,无需启动 SQL 环境即可执行表维护、数据合并与元数据操作。其核心价值在于:关键语义定义:场景 1:订单状态批量更新场景 2:跨 Catalog 动态源表场景 3:数据归档与清理三、关键数据管理操作详解1. 条件删除 (Delete Action)高级能力:注意事项:核心价值: 并行度控制:通过 Catal原创 2025-06-27 14:50:22 · 872 阅读 · 0 评论 -
Apache Paimon Procedures 深度解析
Paimon Procedures通过 “元数据操作代替计算作业”资源效率:节省90%的运维计算资源敏捷响应:命令执行从分钟级降至秒级生态统一:复用SQL技能降低学习成本随着Flink 2.0对Call Statements的深度集成,Paimon有望成为首个实现 “完全SQL驱动” 的数据湖格式,推动流批一体架构进入新纪元。原创 2025-06-22 17:44:09 · 706 阅读 · 0 评论 -
Apache Paimon 分区表:从创建到过期管理
Paimon 分区表通过声明分区字段,支持单字段或多字段组合。关键约束:若表定义主键,分区字段必须是主键的子集。-- 单字段日期分区(主键包含分区字段)dt STRING,-- 多字段复合分区(需主键包含所有分区字段)Apache Paimon 的分区管理能力为实时数据湖提供了灵活、高效的生命周期管理方案。通过合理设计分区策略、结合流批一体特性,开发者可以构建高性能、低成本的数据处理管道。原创 2025-05-27 16:27:08 · 1393 阅读 · 0 评论 -
Paimon 表类型详解:从基础到高级应用
Paimon 支持多种表类型,每种类型都有其独特的应用场景和优势。带主键的表(Table with PK):支持主键约束,确保数据的唯一性,适合需要频繁更新和查询的场景。无主键的表(Table w/o PK):适用于追加数据的场景,不支持直接更新,但支持批量操作。视图(View):虚拟表,依赖于元数据存储,适合跨引擎查询。格式表(Format Table):支持多种文件格式,如 CSV、Parquet、ORC、JSON,适合与 Hive 表集成。对象表(Object Table)原创 2025-03-19 13:45:35 · 1189 阅读 · 0 评论 -
Paimon Catalog 与Spark引擎的表管理
文件系统元数据存储(默认):元数据和表文件都存储在文件系统中。Hive 元数据存储:元数据存储在 Hive Metastore 中,用户可以直接从 Hive 访问表。JDBC 元数据存储:元数据存储在关系型数据库(如 MySQL、Postgres 等)中。本文详细介绍了如何在 Paimon 中创建和管理 Catalog 和表。通过不同类型的 Catalog,您可以灵活地选择元数据存储方式,并通过 SQL DDL 语句轻松管理表、视图和标签。希望这篇指南能帮助您更好地理解和使用 Paimon 的强大功能。原创 2025-03-18 15:15:38 · 2578 阅读 · 0 评论
分享