- 博客(51)
- 收藏
- 关注
原创 Spark流水线数据质量检查组件
适用于需要灵活配置数据质量校验规则的场景,在数据从数据源抽取、转换并加载到数据仓库的ETL过程中,添加数据质量检查组件,对每一步的数据进行质量检查。例如,在数据抽取后检查数据的完整性,在转换过程中检查数据的一致性和准确性,确保只有符合质量要求的数据才能进入数据仓库,避免错误数据对后续数据分析和决策的影响。该组件提供了一个可视化、交互式的数据质量规则设计器,支持多种校验类型和参数配置,便于灵活定义和管理数据校验逻辑。列值最小值在10 - 20不通过,规则。列最小值为3,最大值为97,规则。
2025-07-06 11:59:37
772
2
原创 Spark流水线数据探查组件
Deequ是AWS实验室开发的一款开源数据质量监控工具,它构建在Apache Spark之上,主要用于大规模数据集的质量验证。Deequ允许用户定义"数据质量约束",并自动计算指标来验证这些约束是否得到满足,从而帮助数据工程师和分析师确保其数据的正确性和完整性。在数据从数据源抽取、转换并加载到数据仓库的ETL过程中,Deequ可以嵌入其中,对每一步的数据进行质量检查。
2025-07-02 22:07:39
725
原创 Flink流水线+Gravitino+Paimon集成
可以关联前面创建的Gravitino数据源,关联后,会在gravitino下创建一个该数据源的。添加成功之后,会在Gravitino中创建一个名为配置的中的meatalake。点击任务名称,进入任务详情页。将数据写入mysql的user表,再通过。读取mysql的user表,使用。节点生成100条测试数据,使用。读取Paimon,最后通过。写入到Paimon。:通过顶部菜单栏选择。节点输入读取的数据。
2025-06-21 22:55:29
547
原创 Spark流水线+Gravitino+Marquez数据血缘采集
是一个开放标准和框架,用于跨工具、平台和系统捕获数据血缘信息。它定义了通用的数据血缘模型和API,允许不同的数据处理工具(如ETL、调度器、数据仓库)以标准化格式生成血缘元数据。由Linux基金会托管,社区驱动,支持广泛的集成。Marquez是OpenLineage的参考实现,是一个开源元数据服务,专为数据血缘和元数据管理设计。由WeWork团队最初开发,现由社区维护,与OpenLineage深度集成。提供Web UI和API,用于存储、查询和可视化血缘信息。
2025-06-08 23:34:50
1729
4
原创 Spark流水线集成Gravitino
它直接管理不同来源、类型和区域的元数据,为用户提供统一的数据和 AI 资产元数据访问接口。Gravitino 的目标是提供一个统一的元数据治理层,以统一的方式管理端到端的元数据,其中包括访问控制、审计、发现等功能。端到端数据治理意味着对数据从产生到使用的整个过程进行全面的管理和控制,确保数据的准确性、完整性、安全性和可用性。如将普通数据以及 AI 资产(如模型、特征等)的管理进行统一,实现一种统一的数据管理方式。,用户可以使用这些引擎来查询元数据和数据,而无需更改现有的 SQL 方言。
2025-05-28 20:04:10
1108
原创 Flink流水线集成Gravitino
Apache Gravitino is a high-performance, geo-distributed, and federated metadata lake. It manages the metadata directly in different sources, types, and regions. It also provides users with unified metadata access for data and AI assets.(Apache Gravitino 是一
2025-05-25 07:51:56
1074
1
原创 Spark流水线在线演示
访问系统登录页面,输入账号密码完成身份验证。点击任务名称,进入任务详情页。支持通过AI生成数据表结构。节点(模拟数据生成)。:通过顶部菜单栏选择。
2025-05-10 12:49:58
227
原创 开源大数据流水线系统PiflowX本地开发调试
编译完成后,找到streampark-console-service模块target目录下压缩包apache-streampark-2.2.0-SNAPSHOT-incubating-bin.tar.gz,解压到指定目录。在资源管理中,上传piflowx/piflow-server/target下piflow-server.jar。Program main填写。启动完成,会在项目下生成一个server.ip文件,文件内容为当前机器ip。在作业列表,可以看到刚刚创建的流水线任务,点击图中图标,进入设计界面。
2024-04-08 20:44:45
677
原创 PiflowX新增Apache Beam引擎支持
Apache Beam 架构原理及应用实践-腾讯云开发者社区-腾讯云 (tencent.com)大数据起源于 Google 2003年发布的三篇论文 GoogleFS、MapReduce、BigTable 史称三驾马车,可惜 Google 在发布论文后并没有公布其源码,但是 Apache 开源社区蓬勃发展,先后出现了 Hadoop,Spark,Apache Flink 等产品,而 Google 内部则使用着闭源的 BigTable、Spanner、Millwheel。
2024-02-05 22:13:04
1560
原创 PiflowX组件-FileRead
FileRead组件可以读取指定路径的文件的内容,可以是本地路径,hdfs路径或者其他flink支持的文件系统的路径。
2024-01-28 21:25:01
565
原创 PiflowX-JdbcCatalog组件
通过JDBC协议将Flink连接到关系数据库,目前支持Postgres Catalog和MySQL Catalog。
2024-01-24 21:18:06
553
原创 基于PiflowX构建MySQL和Postgres的Streaming ETL
说明:案例来自flink cdc官方。[[基于 Flink CDC 构建 MySQL 和 Postgres 的 Streaming ETL]()]这篇文章将演示如何基于PiflowX快速构建 MySQL和Postgres的流式ETL。本教程的演示都将在WEB画布中进行,只需拖拉拽,无需一行Java/Scala代码,也无需安装IDE。
2024-01-21 17:45:10
1331
原创 PiflowX如何快速开发flink程序
在了解了flink sql的定义后,一切便简单多了,那么,我们只需要根据业务需要,设计出一个表单输入,填写我们的业务参数,然后,由框架自动生成sql不就可以了么。可以看到,我们可以在此定义flink table中的表基本信息,物理列,元数据列,计算列,水印等,具体说明在此就不赘述了,以后会有具体文章来说明。至此,我们通过简单的表单填写,便可开发一个flink任务,最后,点击运行,系统便可自动提交到flink环境,并可实时查看运行日志,是不是很方便快捷!参数解释可以查看之前的文章(
2024-01-14 12:45:48
1347
原创 PiflowX组件 - Filter
Filter组件组件说明数据过滤。计算引擎flink组件分组common端口Inport:默认端口outport:默认端口组件属性名称展示名称默认值允许值是否必填描述例子conditioncondition“”无是过滤条件。age >= 50 or age < 20Filter示例配置{ "flow": { "name": "FilterTest", "uuid": "1234", "stops"
2024-01-07 21:40:28
419
原创 StreamPark + PiflowX 打造新一代大数据计算处理平台
PiFlow是一个基于分布式计算框架 Spark 开发的大数据流水线系统。该系统将数据的采集、清洗、计算、存储等各个环节封装成组件,以所见即所得方式进行流水线配置。简单易用,功能强大。它具有如下特性:简单易用:可视化配置流水线,实时监控流水线运行状态,查看日志;
2024-01-05 22:46:12
1834
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅