paimon使用腾讯云cosn作为仓库存储的使用方式

最新推荐文章于 2025-08-01 16:29:05 发布

原创

最新推荐文章于 2025-08-01 16:29:05 发布 · 1k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#腾讯云 #云计算 #大数据 #java #flink

背景

paimon是flink推出的高性能流式数据湖平台，我们在业务应用中选型了paimon作为数据湖的落地框架。对象存储（Cloud Object Storage，COS）是腾讯云提供的一种存储海量文件的分布式存储服务，用户可通过网络随时存储和查看数据。

我们在大数据存储使用的是腾讯云的cosn对象存储，因此我们需要两者进行结合使用，让cosn作为paimon的存储仓库。

paimon的使用

我们需要用java对paimon进行基本的DDL操作，例如创建数据库，创建数据表等等。根据paimon的官方要求，我们得先构建catalog。

先引入paimon的依赖包

<dependency>
  <groupId>org.apache.paimon</groupId>
  <artifactId>paimon-bundle</artifactId>
  <version>1.1-SNAPSHOT</version>
</dependency>
<dependency>
  <groupId>org.apache.paimon</groupId>
  <artifactId>paimon-flink-common</artifactId>

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

路边草随风

关注关注

5
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

paimon实战 -- paimon表数据写入和查询使用指南

阿华田的博客

12-12

1531

通过设置consumer-id参数，您可以给流作业中的Paimon源表算子赋予一个Consumer ID，其值可以是任意的字符串。Consumer ID第一次创建时，它的起始消费位点根据中的规则确定。后续只要继续使用相同的Consumer ID，即可恢复Paimon表的消费进度。例如，为Paimon源表算子设置名为test-id的Consumer ID的SQL语句示例如下。

Paimon实战 -- paimon原理解析

阿华田的博客

08-16

3765

Apache Paimon 原名 Flink Table Store，2022年1月在 Apache Flink 社区从零开始研发，Flink 社区希望能够将 Flink 的 Streaming 实时计算能力和 Lakehouse 新架构优势进一步结合，促进数据在数据湖上真正实时流动起来，并为用户提供实时离线一体化的开发体验。

参与评论您还未登录，请先登录后发表或查看评论

1 条评论

lds_include 2025.05.19
我只是本地idea中开发一个项目我也得配置hadoop的环境嘛？如果不配置我应怎么实现 flink+paimon 然后用腾讯的cos作为存储呢

数据湖技术之Paimon

奔跑的蜗牛的博客

01-05

2825

Flink社区希望能够将Flink的Streaming实时计算能力和Lakehouse新架构优势进一步结合，推出新一代Streaming Lakehouse技术，促进数据在数据湖上真正实时流动起来，并为用户提供实时离线一体化的开发体验。Apache Paimon是一个流数据湖平台，具有高速数据摄取、变更日志跟踪和高效的实时分析的能力。

Apache Paimon 使用之 Querying Tables

猫猫爱吃小鱼粮

03-08

1908

Apache Paimon 使用之 Querying Tables

Paimon教程

Cool_Pepsi的博客

01-21

2596

Flink 社区希望能够将 Flink 的 Streaming 实时计算能力和 Lakehouse 新架构优势进一步结合，推出新一代的 Streaming Lakehouse 技术，促进数据在数据湖上真正实时流动起来，并为用户提供实时离线一体化的开发体验。Flink 社区内部孵化了Flink Table Store (简称 FTS)子项目，一个真正面向 Streaming 以及 Realtime的数据湖存储项目。

腾讯云 vs 阿里云：2024年主流云平台全方位对比

AI天才研究院

06-21

1760

随着企业数字化转型的深入，云计算已成为核心基础设施。腾讯云与阿里云作为中国云市场的双雄，占据超过60%的市场份额（2024年IDC数据）。本文旨在通过技术架构、产品矩阵、行业适配性等12个核心维度的对比，帮助技术决策者、开发者和企业IT部门理解两者的差异，制定最优上云策略。全球基础设施布局与网络架构计算、存储、数据库等核心IaaS服务PaaS层开发工具与AI服务生态行业解决方案与安全合规能力成本模型与资源管理工具全文分为技术层对比、应用层分析、实战指导和趋势展望四大部分。

基于 Paimon 的袋鼠云实时湖仓入湖实战剖析

a958014226的博客

06-27

964

在当今数据驱动的时代，企业对数据的实施性能力提出了前所未有的高要求。为了应对这一挑战，构建高效、灵活且可扩展的成为数字化转型的关键。本文将深入探讨袋鼠云数栈如何通过三大核心实践——ChunJun 融合 Flink CDC、MySQL 一键入湖至 Paimon 的实践，以及湖仓一体治理 Paimon 的实践，重塑实时湖仓的架构与管理，为企业打造的新引擎。

踩坑完毕：手把手带你使用Flink尝鲜Paimon入门案例（强烈建议收藏）

遇码开源社区

03-14

2928

本文为大家讲解如何使用Flink完成Paimon官方的入门案例，建议大家收藏（对英文文档有恐惧感）。

Paimon下载使用和基础操作说明

u010479989的博客

07-10

1514

Apache Paimon 是一种湖格式，支持使用 Flink 和 Spark 构建实时湖仓一体架构用于流式处理和批处理操作。Paimon创新性地将湖格式与LSM（Log-structured merge-tree）相结合结构，将实时流式更新引入 Lake 架构。

2 快速上手使用Paimon数据湖

大数据技术博客

11-08

3904

想要使用Paimon是非常简单的，不需要复杂的安装部署，只需要使用一个jar包即可对它进行操作。目前Paimon主要提供的是SQL层面的API，所以我们在使用Flink操作Paimon的时候需要用到Flink SQL。

数据湖Paimon入门指南

m0_57320261的博客

02-04

2834

如果用户建表时指定'merge-engine' = 'partial-update'，那么就会使用部分更新表引擎，可以做到多个 Flink 流任务去更新同一张表，每条流任务只更新一张表的部分列，最终实现一行完整的数据的更新，对于需要拉宽表的业务场景，partial-update 非常适合此场景，而且构建宽表的操作也相对简单。这种方式的成本相对较高，同时官方不建议这样使用，因为下游任务在 State 中存储一份全量的数据，即每条数据以及其变更记录都需要保存在状态中。流式查询将不断产生最新的更改。

Apache Paimon 全面指南：简介、部署与性能优化

热门推荐

Leonardo_KY的博客

05-22

1万+

新一代数据湖存储技术Apache Paimon（Flink Table Store）入门Demo，本文给出了一些简单的flink-paimon样例（example），可供快速学习上手（文中所有代码均已跑通）。

数据湖存储解决方案之Paimon

marui156的专栏

02-21

8739

Flink 社区希望能够将 Flink 的 Streaming 实时计算能力和 Lakehouse 新架构优势进一步结合，推出新一代的 Streaming Lakehouse 技术，促进数据在数据湖上真正实时流动起来，并为用户提供实时离线一体化的开发体验。Flink 社区内部孵化了 Flink Table Store （简称 FTS ）子项目，一个真正面向 Streaming 以及 Realtime的数据湖存储项目。

当流计算邂逅数据湖：Paimon 的前生今世

lck_csdn的博客

03-14

1086

当流计算邂逅数据湖：Paimon 的前生今世

Apache Paimon 文件操作

http://www.54tianzhisheng.cn/

02-04

2642

本文旨在澄清不同文件操作对文件的影响。本页面提供具体示例和实用技巧，以有效地管理这些操作。此外，通过对提交（commit）和压实（compact）等操作的深入探讨，我们旨在提供有关文件创建和更新的见解。前提对以下几篇有了解：1、Apache Paimon 介绍2、Apache Paimon 基础概念3、Apache Paimon 文件布局设计4、知道如何在 Flink 中使用 Paimon创建 c...

doris：Paimon Catalog

qq_36070104的博客

03-03

770

doris：Paimon Catalog

新一代开源流数据湖平台Apache Paimon入门实操-下

itxiaoshen博客

08-07

1897

上一篇对Apache Paimon有了基础了解，本身则主要通过实操方式进一步加深理解，具备沉淀后续投入使用的基础知识；进行数据插入和更新操作，基于批和流式多种查询方式如时间旅行和增量查询，并了解相关系统表的查看，最后MySQL和基于Kafka（通过Canal对MySQL数据库实现变更捕获）的CDC集成完整示例演示收尾。

paimon 使用

07-08

### Paimon 的数据处理与开发使用指南 Apache Paimon 是一个高效的流式数据湖平台，专为大数据处理而设计。它支持多种分布式文件系统和计算引擎，能够实现高效的数据写入、查询以及状态管理。以下是关于如何使用 Paimon 进行数据处理和开发的详细指南。 #### 1. 数据模型与表结构设计 Paimon 支持主键模型（Primary Key Table），该模型允许通过一组列来唯一标识每条记录。在主键表中，Paimon 通过对每个 bucket 中的主键进行排序来强制执行数据排序，从而允许用户通过对主键应用过滤条件来实现高性能查询。主键表是 Paimon 作为流式数据湖的核心特性之一，特别适用于接收来自数据库 CDC 或 Flink Streaming 产生的 changelog 数据（如 insert、update、delete 操作）[^4]。创建主键表时，需使用以下关键字： ```sql CREATE TABLE paimon_table ( id INT PRIMARY KEY NOT ENFORCED, name STRING, age INT ); ``` #### 2. 数据写入与 Compaction 配置 Paimon 使用 LSM（Log-Structured Merge-Tree）结构来优化写入性能。LSM 结构能够在写入过程中保持较高的吞吐量，同时在后台自动进行 compaction（合并）操作以减少存储开销并提升读取性能。默认情况下，compaction 在 Flink Sink 中自动完成，但为了防止阻塞写操作，可以调整相关参数以启用异步 compaction： ```properties num-sorted-run.stop-trigger = 2147483647 sort-spill-threshold = 10 changelog-producer.lookup-wait = false ``` 这些配置有助于在写放大和读放大之间取得平衡，确保在高并发写入场景下仍能保持良好的性能表现 [^4]。 #### 3. 数据一致性保障 Paimon 通过简单的湖仓抽象设计、良好的状态管理机制以及严谨的测试用例，确保了数据的一致性。在实际使用过程中，几乎不会遇到数据丢失或一致性问题。这主要得益于其底层架构对状态管理的精细控制，避免了因现场安全、状态管理不当或数据写入顺序错误而导致的数据丢失问题 [^3]。 #### 4. 查询性能优化 Paimon 在查询性能方面表现出色，尤其是在全量 + 增量写入的场景中。相比 Hudi MOR（Merge on Read），Paimon 的摄入速度大约快 3 倍，查询速度则可达到 Hudi 的 7 倍左右，特别是在点查（point query）场景下更为明显。这种性能优势源于 Paimon 底层有序的数据组织方式，能够在查询时裁剪掉大部分不必要的数据，从而显著减少 I/O 开销 [^3]。 #### 5. 生态集成与扩展性 Paimon 具有丰富的生态系统支持，能够轻松集成多种分布式文件系统（如 HDFS、S3）和计算引擎（如 Flink、Spark）。其设计简洁明了，各个引擎的集成都非常自然且易于理解，这对维护者来说非常重要。此外，Paimon 的生态也在不断扩展，已支持 Doris、StarRocks 等新兴分析引擎的集成 [^3]。 #### 6. 实际应用场景 Paimon 可广泛应用于实时数据仓库、流式数据处理、湖仓一体架构等场景。例如，使用 Flink CDC 从业务库抽取数据到 Paimon，可以实现实时数据同步与变更捕获。具体流程如下： 1. 配置 Flink CDC 源连接器，连接到业务数据库。 2. 定义目标 Paimon 表结构，并设置主键约束。 3. 启动 Flink 作业，将变更数据写入 Paimon 表中。示例 Flink SQL 代码如下： ```sql CREATE TABLE mysql_cdc_source ( id INT PRIMARY KEY NOT ENFORCED, name STRING, age INT ) WITH ( 'connector' = 'mysql-cdc', 'hostname' = 'localhost', 'port' = '3306', 'database-name' = 'test_db', 'table-name' = 'users', 'username' = 'root', 'password' = 'password' ); INSERT INTO paimon_table SELECT * FROM mysql_cdc_source; ``` 此流程能够实现实时数据同步，适用于需要快速响应业务变化的场景 [^4]。 ---