
spark streaming
爆发的~小宇宙
github地址:https://github.com/ordinary-zhang?tab=repositories
展开
-
Spark Streaming 介绍及架构——基础篇
1 概述官方网站 Spark Streaming是Spark API核心的扩展,支持实时数据流的处理,并且具有可扩展,高吞吐量,容错的特点。 数据可以从许多来源获取,如Kafka,Flume,Kinesis或TCP套接字,并且可以使用复杂的算法进行处理,这些算法使用诸如map,reduce,join和window等高级函数表示。 最后,处理后的数据可以推送到文件系统,数据库和实时仪表板。 实...原创 2018-06-04 22:26:41 · 10074 阅读 · 2 评论 -
Spark Streaming + Kafka(Kafka broker version 0.10.0)
1 概述本文对于Kafka对接Spark Streaming进行学习。 官方地址,但是需要注意的是:Kafka项目在版本0.8和0.10之间引入了新的消费者API,因此有两个独立的相应Spark Streaming软件包可用。所以使用的时候要注意版本的问题。如下图所示版本选择: 作者使用版本介绍(伪分布式):kafka_2.11-0.10.0.1.tgzscala-2.11.8...原创 2018-06-11 21:16:38 · 1433 阅读 · 0 评论 -
Spark Streaming + Kafka (Kafka broker version 0.8.2.1 or higher)
1 概述上一篇博客我们学习了Spark Streaming + Kafka(0.10.0)版本的,这次我们通过两个版本的对比进行一个更深刻的认识。对于Kafka broker version 0.8.2.1可以支持高版本,而0.10.0版本以后并不支持以前的旧版本。旧版本中有两种方法 - 使用Receivers和Kafka的高级API的旧方法,以及不使用Receivers的新方法(在Spa...原创 2018-06-11 22:30:19 · 495 阅读 · 0 评论 -
Spark Streaming中的Transformations和Output Operations的使用
概述上一篇我们对Spark Streaming进行了简单的介绍,并使用socket的方式进行了测试,进一步对DStream,以及架构进行了学习,然后介绍了简单的源码分析。最后提到Spark Streaming提供了两类内置streaming sources。 1. 基本来源:StreamingContext API中直接可用的来源。 示例:文件系统和socket connections。 ...原创 2018-06-05 21:51:48 · 635 阅读 · 0 评论 -
Flume+Spark Streaming
1 概述Apache Flume是一种分布式,可靠且可用的服务,用于高效地收集,汇总和移动大量日志数据。 这里我们学习如何配置Flume和Spark Streaming来接收来自Flume的数据。 提供两种方法来解决这问题。注意:从Spark 2.3.0开始,不推荐使用Flume支持。个人也不推荐这种架构,数据量小的情况下可能没什么问题,但是再数据量过大的情况下Streaming流式处理是...原创 2018-06-10 13:21:18 · 916 阅读 · 0 评论 -
SparkStreaming消费kafka中的数据保存到HBase中简单demo
package cn.zhangyuimport cn.zhangyu.HbaseStreaming.createTableimport cn.zhangyu.utils.JsonUitlsimport org.apache.hadoop.hbase.client.{ConnectionFactory, Put, Table}import org.apache.hadoop.hbase.u...原创 2019-09-30 11:18:51 · 2021 阅读 · 2 评论