Waterdrop帮你快速玩转Spark数据处理

最新推荐文章于 2021-09-12 18:22:35 发布

置顶

Gary的影响力

最新推荐文章于 2021-09-12 18:22:35 发布

阅读量2.9k

点赞数

分类专栏：大数据文章标签： spark streaming etl waterdrop 分布式

本文链接：https://blog.youkuaiyun.com/gaoyingju/article/details/79394729

版权

Waterdrop是一个基于Apache Spark构建的实时数据处理工具，旨在简化Spark的使用，提供高性能、高吞吐量的数据处理能力。通过模块化和插件化设计，支持实时流式处理和SQL操作，易于扩展。文章介绍了使用Waterdrop处理Kafka数据的案例，展示了其数据读取、清洗、聚合和输出的流程，并展望了Waterdrop的未来发展方向。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

waterdrop logo

Waterdrop 项目地址：https://interestinglab.github.io/waterdrop

Databricks 开源的 Apache Spark 对于分布式数据处理来说是一个伟大的进步。我们在使用 Spark 时发现了很多可圈可点之处，我们在此与大家分享一下我们在简化Spark使用和编程以及加快Spark在生产环境落地上做的一些努力。

一个Spark Streaming读取Kafka的案例

以一个线上案例为例，介绍如何使用Spark Streaming统计Nginx后端日志中每个域名下每个状态码每分钟出现的次数，并将结果数据输出到外部数据源Elasticsearch中。其中原始数据已经通过Rsyslog传输到了Kafka中。

数据读取

从Kafka中每隔一段时间读取数据，生成DStream

val directKafkaStream = KafkaUtils.createDirectStream[
     [key class], [value class], [key decoder class], [value decoder class] ](
     streamingContext, [map of Kafka parameters], [set of topics to consume])

具体方法参考Spark Streaming + Kafka Integration Guide

数据清洗

日志案例

192.168.0.1 interestinglab.github.io 127.0.0.1 0.001s [22/Feb/2018:22:12:15 +0800] "GET /waterdrop HTTP/1.1" 200 8938 "http://github.com/" - "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36"

通过Split方法从非结构化的原始数据message中获取域名以及状态码字段，并组成方便聚合的结构化数据格式Map(key -> value)

val splitList = message.split(" ")
val domain = splitList(1)
val httpCode = splitList(9)
val item = Map((domain, httpCode) -> 1L)

数据聚合

利用Sp

最低0.47元/天解锁文章