QStreaming-轻量级大数据ETL开发框架

QStreaming是基于Apache Spark开发的轻量级ETL框架,旨在简化大数据开发,解决传统架构的学习门槛高、数据源管理困难及开发效率低等问题。其特性包括数据源支持(如Kafka、Hbase、HDFS等)、DDL定义输入源、流处理watermark支持、动态UDF、多输出、变量渲染和监控等。QStreaming的架构包括Pipeline DSL、Parser、Domain Models、Translator、Data Quality Checker和Runner等组件。该框架适用于多种场景,如消息驱动的ETL、预聚合处理、数据加工等。未来规划将完善数据源支持和添加数据血缘功能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

QStreaming背景

首先在进入主题之前我们先来回顾下经典的大数据ETL架构有哪些?

  1. Lambda架构
  2. Kappa架构
  3. 混合架构

它们之间的区别如下:

七牛的大数据平台在搭建过程中也经历了上面几个架构的变迁,也就是从最早的Lambda架构,到尝试使用Kappa架构,再到后面的新型混合ETL架构,为了满足业务需求,开发人员在这几个架构中进行折中选择,但是我们发现上面几个架构对于大数据的开发人员要求较高,主要体现在下面几个方面:

  1. 涉及到众多的框架,如流处理框架就有早期的Apache Storm,到后面的Apache Spark Streaming,再到Apache Flink,学习门槛较高
  2. 不同计算框架对与数据源的定义不统一,造成输入输出较难管理
  3. 数据开发人员新开发一个业务指标,不同开发人员写出的代码风格不统一,开发效率低,很难进行工程化,后期维护也必将困难

为了解决上面的几个问题,团队选择基于Apache Spark开发了QStreaming这套简单轻量级ETL开发框架

QStreaming特性

数据源支持

  1. Apache Kafka
  2. Apache Hbase
  3. Hadoop HDFS/S3
  4. Jdbc
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值