13、批处理和流式ETL及相关数据库技术解析

perl8

于 2025-10-09 13:16:13 发布

阅读量12

点赞数

CC 4.0 BY-SA版权

分类专栏：系统设计的艺术与权衡文章标签： ETL 批处理流式处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/perl8/article/details/154759018

系统设计的艺术与权衡专栏收录该内容

48 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

批处理和流式ETL及相关数据库技术解析

1. 批处理和流式ETL概述

ETL（Extract, Transform, Load）是将数据从一个或多个源复制到目标系统的通用过程，目标系统对数据的表示方式或上下文与源不同。批处理是指批量处理数据，通常按周期进行，也可手动触发；流式处理则是实时处理连续的数据流。

我们可以将批处理和流式处理类比为轮询和中断。批处理作业总是按定义的频率运行，无论是否有新事件需要处理；而流式作业在满足触发条件（通常是发布新事件）时运行。

例如，为客户生成月度账单（如PDF或CSV文件）就是批处理作业的一个用例。如果生成这些账单所需的数据每月仅在特定日期可用，那么批处理作业就特别合适。但如果生成这些定期文件的所有数据都在组织内部生成，我们可以考虑Kappa架构并实现流式作业，这样每月文件在当月结束后几乎立即可用，数据处理成本分散在整个月，并且每次处理少量数据的函数更容易调试。

常见的批处理工具包括Airflow和Luigi，常见的流式处理工具包括Kafka和Flink。Flume和Scribe是专门用于日志记录的流式处理工具，它们聚合来自许多服务器的实时日志数据。

2. 简单批处理ETL管道

2.1 实现方式

简单的批处理ETL管道可以使用crontab、两个SQL表和每个作业的脚本（即用脚本语言编写的程序）来实现。cron适用于小型非关键作业，且不需要并行处理，单台机器就足够。以下是两个示例SQL表：

CREATE TABLE cron_dag (
  id INT,         -- ID

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。