自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(51)
  • 收藏
  • 关注

原创 Spark流水线数据对比组件

数据对比组件提供了数据行按主键对比的能力。Spark流水线数据对比组件。

2025-07-09 20:25:18 169

原创 Spark流水线数据质量检查组件

适用于需要灵活配置数据质量校验规则的场景,在数据从数据源抽取、转换并加载到数据仓库的ETL过程中,添加数据质量检查组件,对每一步的数据进行质量检查。例如,在数据抽取后检查数据的完整性,在转换过程中检查数据的一致性和准确性,确保只有符合质量要求的数据才能进入数据仓库,避免错误数据对后续数据分析和决策的影响。该组件提供了一个可视化、交互式的数据质量规则设计器,支持多种校验类型和参数配置,便于灵活定义和管理数据校验逻辑。列值最小值在10 - 20不通过,规则。列最小值为3,最大值为97,规则。

2025-07-06 11:59:37 772 2

原创 Spark流水线数据探查组件

Deequ是AWS实验室开发的一款开源数据质量监控工具,它构建在Apache Spark之上,主要用于大规模数据集的质量验证。Deequ允许用户定义"数据质量约束",并自动计算指标来验证这些约束是否得到满足,从而帮助数据工程师和分析师确保其数据的正确性和完整性。在数据从数据源抽取、转换并加载到数据仓库的ETL过程中,Deequ可以嵌入其中,对每一步的数据进行质量检查。

2025-07-02 22:07:39 725

原创 Flink流水线+Gravitino+Paimon集成

可以关联前面创建的Gravitino数据源,关联后,会在gravitino下创建一个该数据源的。添加成功之后,会在Gravitino中创建一个名为配置的中的meatalake。点击任务名称,进入任务详情页。将数据写入mysql的user表,再通过。读取mysql的user表,使用。节点生成100条测试数据,使用。读取Paimon,最后通过。写入到Paimon。:通过顶部菜单栏选择。节点输入读取的数据。

2025-06-21 22:55:29 547

原创 Spark流水线+Gravitino+Marquez数据血缘采集

是一个开放标准和框架,用于跨工具、平台和系统捕获数据血缘信息。它定义了通用的数据血缘模型和API,允许不同的数据处理工具(如ETL、调度器、数据仓库)以标准化格式生成血缘元数据。由Linux基金会托管,社区驱动,支持广泛的集成。Marquez是OpenLineage的参考实现,是一个开源元数据服务,专为数据血缘和元数据管理设计。由WeWork团队最初开发,现由社区维护,与OpenLineage深度集成。提供Web UI和API,用于存储、查询和可视化血缘信息。

2025-06-08 23:34:50 1729 4

原创 Spark流水线集成Gravitino

它直接管理不同来源、类型和区域的元数据,为用户提供统一的数据和 AI 资产元数据访问接口。Gravitino 的目标是提供一个统一的元数据治理层,以统一的方式管理端到端的元数据,其中包括访问控制、审计、发现等功能。端到端数据治理意味着对数据从产生到使用的整个过程进行全面的管理和控制,确保数据的准确性、完整性、安全性和可用性。如将普通数据以及 AI 资产(如模型、特征等)的管理进行统一,实现一种统一的数据管理方式。,用户可以使用这些引擎来查询元数据和数据,而无需更改现有的 SQL 方言。

2025-05-28 20:04:10 1108

原创 Flink流水线集成Gravitino

Apache Gravitino is a high-performance, geo-distributed, and federated metadata lake. It manages the metadata directly in different sources, types, and regions. It also provides users with unified metadata access for data and AI assets.(Apache Gravitino 是一

2025-05-25 07:51:56 1074 1

原创 数据同步DataX任务在线演示

访问系统登录页面,输入账号密码完成身份验证。

2025-05-12 20:23:45 333

原创 Spark流水线在线演示

访问系统登录页面,输入账号密码完成身份验证。点击任务名称,进入任务详情页。支持通过AI生成数据表结构。节点(模拟数据生成)。:通过顶部菜单栏选择。

2025-05-10 12:49:58 227

原创 Flink流水线任务在线演示

访问系统登录页面,输入账号密码完成身份验证。

2025-05-05 11:08:30 767 2

原创 flink faker + deepseek高效模拟数据

flink faker结合deepseek高效模拟数据。

2025-03-01 09:39:44 182

原创 数据治理-数据标准演示

数据标准-业务字典映射。

2024-06-02 09:54:03 315

原创 开源大数据流水线系统PiflowX本地开发调试

编译完成后,找到streampark-console-service模块target目录下压缩包apache-streampark-2.2.0-SNAPSHOT-incubating-bin.tar.gz,解压到指定目录。在资源管理中,上传piflowx/piflow-server/target下piflow-server.jar。Program main填写。启动完成,会在项目下生成一个server.ip文件,文件内容为当前机器ip。在作业列表,可以看到刚刚创建的流水线任务,点击图中图标,进入设计界面。

2024-04-08 20:44:45 677

原创 PiflowX-Faker组件

根据每列提供的Data Faker表达式生成模拟数据。

2024-03-24 15:57:42 955

原创 PiflowX安装部署

说明:此项目仅限于交流学习使用。有诸多未完善的地方,敬请谅解!后续会逐步完善,欢迎一起交流学习。

2024-03-11 21:51:45 1130

原创 PiflowX-TopN组件

按列排序的N个最小值或最大值。

2024-03-08 20:16:00 620

原创 PiflowX-组件UnionAll

Union多个输入源。输入源必须具有相同的字段类型。

2024-02-20 21:19:01 422 2

原创 PiflowX新增Apache Beam引擎支持

Apache Beam 架构原理及应用实践-腾讯云开发者社区-腾讯云 (tencent.com)大数据起源于 Google 2003年发布的三篇论文 GoogleFS、MapReduce、BigTable 史称三驾马车,可惜 Google 在发布论文后并没有公布其源码,但是 Apache 开源社区蓬勃发展,先后出现了 Hadoop,Spark,Apache Flink 等产品,而 Google 内部则使用着闭源的 BigTable、Spanner、Millwheel。

2024-02-05 22:13:04 1560

原创 PiflowX组件-OrderBy

ORDER BY组件使结果行根据指定的表达式进行排序。

2024-02-03 14:07:05 271

原创 PiflowX组件-FileWrite

往文件系统写入。

2024-01-28 22:28:04 477

原创 PiflowX组件-FileRead

FileRead组件可以读取指定路径的文件的内容,可以是本地路径,hdfs路径或者其他flink支持的文件系统的路径。

2024-01-28 21:25:01 565

原创 PiflowX-JdbcCatalog组件

通过JDBC协议将Flink连接到关系数据库,目前支持Postgres Catalog和MySQL Catalog。

2024-01-24 21:18:06 553

原创 基于PiflowX构建MySQL和Postgres的Streaming ETL

说明:案例来自flink cdc官方。[[基于 Flink CDC 构建 MySQL 和 Postgres 的 Streaming ETL]()]这篇文章将演示如何基于PiflowX快速构建 MySQL和Postgres的流式ETL。本教程的演示都将在WEB画布中进行,只需拖拉拽,无需一行Java/Scala代码,也无需安装IDE。

2024-01-21 17:45:10 1331

原创 PiflowX组件-PostgresCdc

Postgres CDC连接器允许从PostgreSQL数据库读取快照数据和增量数据

2024-01-21 14:11:27 601

原创 PiflowX组件-OracleCdc

Oracle CDC连接器允许从Oracle数据库读取快照数据和增量数据。

2024-01-20 21:04:37 645

原创 PiflowX组件 - Elasticsearch7Write

将数据写入到Elasticsearch-7引擎的索引中。

2024-01-17 21:40:10 519

原创 PiflowX如何快速开发flink程序

在了解了flink sql的定义后,一切便简单多了,那么,我们只需要根据业务需要,设计出一个表单输入,填写我们的业务参数,然后,由框架自动生成sql不就可以了么。可以看到,我们可以在此定义flink table中的表基本信息,物理列,元数据列,计算列,水印等,具体说明在此就不赘述了,以后会有具体文章来说明。至此,我们通过简单的表单填写,便可开发一个flink任务,最后,点击运行,系统便可自动提交到flink环境,并可实时查看运行日志,是不是很方便快捷!参数解释可以查看之前的文章(

2024-01-14 12:45:48 1347

原创 PiflowX-DorisWrite组件

往Doris存储写入数据。

2024-01-14 10:25:24 535

原创 PiflowX-DorisRead组件

从Doris存储读取数据。

2024-01-13 16:20:30 523

原创 PiflowX-MysqlCdc组件

MySQL CDC连接器允许从MySQL数据库读取快照数据和增量数据。

2024-01-10 23:03:15 1480

原创 PiflowX-JdbcRead组件演示

PiflowX-JdbcRead组件演示。

2024-01-09 23:16:38 389

原创 PiflowX-DataGen演示

PiflowX-DataGen演示。

2024-01-07 22:14:16 385

原创 PiflowX组件 - Filter

Filter组件组件说明数据过滤。计算引擎flink组件分组common端口Inport:默认端口outport:默认端口组件属性名称展示名称默认值允许值是否必填描述例子conditioncondition“”无是过滤条件。age >= 50 or age < 20Filter示例配置{ "flow": { "name": "FilterTest", "uuid": "1234", "stops"

2024-01-07 21:40:28 419

原创 StreamPark + PiflowX 打造新一代大数据计算处理平台

PiFlow是一个基于分布式计算框架 Spark 开发的大数据流水线系统。该系统将数据的采集、清洗、计算、存储等各个环节封装成组件,以所见即所得方式进行流水线配置。简单易用,功能强大。它具有如下特性:简单易用:可视化配置流水线,实时监控流水线运行状态,查看日志;

2024-01-05 22:46:12 1834 2

原创 PiflowX组件-JDBCWrite

使用JDBC驱动向任意类型的关系型数据库写入数据。

2024-01-01 21:39:29 732

原创 PiflowX组件-JDBCRead

使用JDBC驱动向任意类型的关系型数据库读取数据。

2024-01-01 21:38:05 508

原创 PiflowX组件-ReadFromUpsertKafka

upsert方式从Kafka topic中读取数据。

2024-01-01 11:52:54 1302

原创 PiflowX组件-WriteToUpsertKafka

以upsert方式往Kafka topic中写数据。

2024-01-01 11:37:42 1154

原创 PiflowX组件-WriteToKafka

将数据写入kafka。

2023-12-29 21:36:42 724

原创 PiflowX组件-ReadFromKafka

从kafka中读取数据。

2023-12-29 20:48:25 704

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除