/////、、、
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.{SparkConf, SparkContext}
object StreamingWC {
def main(args: Array[String]): Unit = {
// StreamingContext
val conf = new SparkConf().setAppName("StreamingWC").setMaster("local[2]")
val sc = new SparkContext(conf)
val ssc = new StreamingContext(sc, Seconds(5))
val ds = ssc.socketTextStream("100.168.1.182", 8888)
val result = ds.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_+_)
result.print()
ssc.start()
ssc.awaitTermination()
}
}
本文介绍如何使用Apache Spark Streaming进行实时词频统计。通过配置SparkConf设置应用名称及运行模式,创建StreamingContext并定义数据接收源为socket,从指定IP及端口接收数据流。对数据流进行flatMap、map及reduceByKey操作实现词频统计,并打印结果。
1167

被折叠的 条评论
为什么被折叠?



