学习SparkStreaming之前建议 先学习Scala 和 Spark ,这两个学好了,用法大同小异
SparkStreaming使用离散化流作为抽象表示,叫做DStream。可用netcat做测试
SparkStream 用采集器间隔时间从数据源采集数据,装成一个个离散化流,离散化流再发给driver,最终发给executor执行
def sparkStreamingTest={
//配置spark,每隔3秒拉取数据
val sc = new SparkConf().setMaster("local[*]").setAppName("hello")
val streamContext = new StreamingContext(sc,Seconds(3))
val lineRdd: ReceiverInputDStream[String] = streamContext.socketTextStream("",9999)
//处理数据
val result = lineRdd.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_)
result.print()
//启动采集器
streamContext.start()
//Dirver等待采集器的执行
streamContext.awaitTermination()
}
窗口滑动(window方法),可用于图标,类似 15:00 -16:00之间的天气变化

本文详细介绍SparkStreaming的基础概念,包括如何使用Scala和Spark进行数据处理。通过实例演示如何配置SparkConf,创建StreamingContext,并使用socketTextStream接收数据。此外,还介绍了DStream的使用,以及如何实现数据的实时处理和窗口滑动。
5万+

被折叠的 条评论
为什么被折叠?



