
SparkStreaming
无名氏0428
路漫漫其修远兮,吾将上下而求索。
展开
-
SparkStreaming socketTextStream
1、SparkStreaming programming-guide地址 http://spark.apache.org/docs/latest/streaming-programming-guide.html2、官网中给出SparkStreaming 中数据来源以及去向如下图所示 可以看到Spark 支持 Kafka, Flume, Kinesis, or TC原创 2016-11-07 15:16:50 · 9895 阅读 · 2 评论 -
SparkStreaming 自定义Receiver
1、参考官网地址 http://spark.apache.org/docs/latest/streaming-custom-receivers.html2、Spark 自定义Receiver SparkStreaming 能够接收任意类型的流式数据,不单单只是内建的Flume,Kafka,Kinesis,files,sockets等等。当然若要支持此种数据,则需要开发者自原创 2016-11-08 10:12:39 · 2714 阅读 · 0 评论 -
Transform
Return a new DStream by applying a RDD-to-RDD function to every RDD of the source DStream. This can be used to do arbitrary RDD operations on the DStream. Transform算子(以及变体transformWith)允许任意的RDD原创 2016-11-08 13:03:38 · 539 阅读 · 0 评论 -
WindowOperations
在SparkStreaming中提供了window操作,通过window操作,操作者可以对一个滑动的窗口内的数据进行转换操作,如下图所示:如上图所示,这个窗口每次在DStream上进行滑动,这里存在两个变量1、window length 窗口长度2、slid length 窗口滑动长度这里的长度均是以batchinterval为单位,因此以上两原创 2016-11-08 14:16:30 · 605 阅读 · 0 评论 -
ConnectionPool
SparkStreaming中常用的操作之一就是将数据导出,例如,将数据结果发送到mysql数据库中。这时候很容易会犯一些错误,例如:dstream.foreachRDD { rdd => val connection = createNewConnection() // executed at the driver rdd.foreach { record => con原创 2016-11-08 15:27:56 · 1386 阅读 · 0 评论 -
UpdateByKey
1、DStream的transformation操作 常用的tarnsformation算子如下: TransformationMeaningmap(func)Return a new DStream by passing each element of the source DStream through a f原创 2016-11-08 12:09:56 · 836 阅读 · 0 评论 -
Spark-Streaming 程序监控
参考地址:http://spark.apache.org/docs/latest/streaming-programming-guide.html官网中指出,spark中专门为SparkStreaming程序的监控设置了额外的途径,当使用StreamingContext时,在WEB UI中会出现一个"Streaming"的选项卡, 在此选项卡内,统计的内容展原创 2016-11-12 17:08:23 · 4739 阅读 · 0 评论 -
Flume + Kafka + SparkStreaming(2.0)
本文阅读需具有一定Flume Kafka SparkStreaming的基础知识。1、Flume以及Kafka环境搭建。 版本的选择,参考http://spark.apache.org/docs/latest/streaming-kafka-integration.html spark-streaming-kafka-0-8sp原创 2016-11-16 12:10:38 · 3790 阅读 · 1 评论 -
Kafka + SparkStreaming + SparkSQL + MYSQL(DBCP)
本文主要讲解如何组合Kafka + SparkStreaming + MYSQL(DBCP)。1、Kafka 在Flume + Kafka + SparkStreaming 中已经给出如何将Kafka与SparkStreaming 集成2、使用DBCP维护connectionPool,对于内含思想请看ConnectionPool 这篇博文,DBCP代码如下:public cla原创 2016-11-16 19:51:59 · 4491 阅读 · 0 评论