
Spark Streaming
文章平均质量分 80
Running_Tiger
这个作者很懒,什么都没留下…
展开
-
Spark Streaming特点
Spark Streaming特点1、易用2、容错3、易整合到Spark体系4、SparkStreaming与Storm的对比 SparkStreaming Storm 开发语言:Scala 开发语言:Clojure 编程模型:DStream 编程模型:Spout/Bolt喜欢就点赞评论...原创 2018-03-11 13:52:11 · 2339 阅读 · 0 评论 -
Spark Streaming整合flume实战(一)
Spark Streaming从flume 中拉取数据Spark Streaming对接Flume有两种方式Poll:Spark Streaming从flume 中拉取数据Push:Flume将消息Push推给Spark Streaming1、安装flume1.6以上2、下载依赖包spark-streaming-flume-sink_2.11-2.0.2.jar放...原创 2018-03-12 21:14:27 · 406 阅读 · 0 评论 -
Spark Streaming整合kafka实战(二)
KafkaUtils.createDirectStream方式KafkaUtils.createDirectStream方式不同于Receiver接收数据,这种方式定期地从kafka的topic下对应的partition中查询最新的偏移量,再根据偏移量范围在每个batch里面处理数据,Spark通过调用kafka简单的消费者Api读取一定范围的数据。架构图如下:相比基于Receiv...原创 2018-03-12 21:17:05 · 344 阅读 · 0 评论 -
Spark Streaming整合kafka实战(一)
KafkaUtils.createDstream方式在spark1.3版本后,kafkaUtils里面提供了两个创建dstream的方法:KafkaUtils.createDstreamKafkaUtils.createDirectStream构造函数为KafkaUtils.createDstream(ssc, [zk], [consumer group id], [per-to...原创 2018-03-12 21:16:48 · 383 阅读 · 0 评论 -
Spark Streaming整合flume实战(二)
flume将消息Push推给Spark Streaming1、配置采集方案vi flume-push.conf#push modea1.sources = r1a1.sinks = k1a1.channels = c1#sourcea1.sources.r1.channels = c1a1.sources.r1.type = spooldira1.sources....原创 2018-03-12 21:16:30 · 253 阅读 · 0 评论 -
DStream操作实战(四)
SparkStreaming开窗函数统计一定时间内的热门词汇1、代码实现package cn.cheng.sparkimport org.apache.spark.rdd.RDDimport org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}import org.apache.spark.st...原创 2018-03-12 21:13:52 · 1005 阅读 · 0 评论 -
DStream操作实战(三)
SparkStreaming开窗函数reduceByKeyAndWindow 实现单词计数1、代码实现package cn.cheng.sparkimport org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}import org.apache.spark.streaming.{Seconds,...原创 2018-03-12 21:13:37 · 788 阅读 · 0 评论 -
DStream操作实战(二)
SparkStreaming接受socket数据,实现单词计数累加DStream操作实战(一)案例中存在这样一个问题:每个批次的单词次数都被正确的统计出来,但是结果不能累加!如果需要累加需要使用updateStateByKey(func)来更新状态。1、代码实现package cn.cheng.sparkimport org.apache.spark.streaming.d...原创 2018-03-12 21:13:17 · 835 阅读 · 0 评论 -
DStream操作实战(一)
SparkStreaming接受socket数据,实现单词计数WordCount1、架构图2、实现流程2.1、安装并启动生产者首先在linux服务器上用YUM安装nc工具,nc命令是netcat命令的简称,都是用来设置路由器。我们可以利用它向某个端口发送数据。yum install -y nc2.2、通过netcat工具向指定的端口发送数据 nc -lk 9999 2.3、编写Spark St原创 2018-03-11 14:40:42 · 2381 阅读 · 0 评论 -
DStream相关操作
DStream相关操作DStream上的操作与RDD的类似,分为Transformations(转换)和Output Operations(输出)两种,此外转换操作中还有一些比较特殊的操作,如:updateStateByKey()、transform()以及各种Window相关的操作。1、Transformations Transformation 含义 map(func) 对DStr原创 2018-03-11 14:21:47 · 5391 阅读 · 0 评论 -
Spark Streaming的基础抽象DStream
Spark Streaming的基础抽象DStreamDStream概念 Discretized Stream是Spark Streaming的基础抽象,代表持续性的数据流和经过各种Spark算子操作后的结果数据流。在内部实现上,DStream是一系列连续的RDD来表示。每个RDD含有一段时间间隔内的数据,如下图:对数据的操作也是按照RDD为单位来进行的Spark Streaming使用数据源产生原创 2018-03-11 14:07:41 · 1275 阅读 · 0 评论 -
Spark Streaming原理
Spark Streaming原理1、Spark Streaming原理Spark Streaming 是基于spark的流式批处理引擎,其基本原理是把输入数据以某一时间间隔批量的处理,当批处理间隔缩短到秒级时,便可以用于处理实时数据流。2、Spark Streaming计算流程Spark Streaming是将流式计算分解成一系列短小的批处理作业。这里的批处理引擎是Spark Core,也就是把S原创 2018-03-11 14:02:25 · 788 阅读 · 0 评论 -
hive on spark
hive on spark1.下载apache-hive-2.0.0-bin.tar.gz注意:尽量安装和hive版本的spark版本的查看可以通过查看当前源码下的pom.xml文件,看其他对应的应用版本2.下载安装maven工具下载地址:http://maven.apache.org/download.cgi配置环境变量3.安装对应版本的scala...原创 2018-03-13 08:38:39 · 395 阅读 · 0 评论