
Spark Streaming
文章平均质量分 61
屡傻不改
这个作者很懒,什么都没留下…
展开
-
【Spark】(四)Spark Streaming 结合 SparkSql 实例
导入 spark-sql 的依赖<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.11</artifactId> <version>2.4.5</version></dependency>代码示例package cn.kgc.kb09.Sparkimport org.apache.kafka.c原创 2021-01-04 19:18:36 · 291 阅读 · 0 评论 -
【Spark】(五)Spark Streaming 之 DStream 转换与输出
一、DStream 转换DStream 上的操作与 RDD 的类似,分为 Transformations(转换)和 Output Operations(输出)两种,此外转换操作中还有一些比较特殊的原语,如:updateStateByKey()、transform()以及各种 Window 相关的原语。1、无状态转化操作无状态转化操作就是把简单的 RDD 转化操作应用到每个批次上,也就是转化 DStream 中的每一个 RDD。部分无状态转化操作列在了下表中。注意,针对键值对的 DStream 转化操作原创 2021-01-04 19:58:49 · 859 阅读 · 1 评论 -
【Spark】(三)Spark Streaming 中的 Window操作
Spark Streaming中的Window操作窗口函数,就是在DStream流上,以一个可配置的长度为窗口,以一个可配置的速率向前移动窗口,根据窗口函数的具体内容,分别对当前窗口中的这一波数据采取某个对应的操作算子。需要注意的是窗口长度,和窗口移动速率需要是batch time的整数倍。**spark streaming 中有三个关于时间的参数,分别如下:**窗口时间windowDuration:当前窗口要统计多长时间的数据,是批量时间的整数倍滑动时间slideDuration:要原创 2020-12-29 09:40:27 · 306 阅读 · 0 评论 -
【Spark Streaming】(二)Spark Streaming - 实时数据采集
案例一:WordCount(scala版本)从本机的7777端口源源不断地收到以换行符分隔的文本数据流,并计算单词个数package cn.kgc.kb09.Sparkimport org.apache.spark.streaming.{Seconds, StreamingContext}import org.apache.spark.SparkConfimport org.apache.spark.streaming.dstream.ReceiverInputDStreamobject Sp原创 2020-12-28 19:42:25 · 1072 阅读 · 0 评论 -
【Spark Streaming】(一)Spark Streaming 简单入门
一、概述SparkStreaming是流式处理框架,是Spark API的扩展,支持可扩展、高吞吐量、容错的实时数据流处理,实时数据的来源可以是:Kafka, Flume, Twitter, ZeroMQ或者TCP sockets,并且可以使用高级功能的复杂算子来处理流数据。例如:map,reduce,join,window 。最终,处理后的数据可以存放在文件系统,数据库等,方便实时展现。一个简单的示例下面以一个简单的例子开始spark streaming的学习之旅!我们会从本机的7777端口源源不断原创 2020-12-22 09:28:32 · 648 阅读 · 0 评论