SparkStreaming

最新推荐文章于 2025-04-19 00:44:33 发布

原创最新推荐文章于 2025-04-19 00:44:33 发布 · 158 阅读

0 ·

CC 4.0 BY-SA版权

Spark 专栏收录该内容

10 篇文章

订阅专栏

本文介绍如何使用Apache Spark Streaming进行实时词频统计。通过配置SparkConf设置应用名称及运行模式，创建StreamingContext并定义数据接收源为socket，从指定IP及端口接收数据流。对数据流进行flatMap、map及reduceByKey操作实现词频统计，并打印结果。

/////、、、

import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.{SparkConf, SparkContext}

object StreamingWC {
  def main(args: Array[String]): Unit = {
    //  StreamingContext
    val conf = new SparkConf().setAppName("StreamingWC").setMaster("local[2]")
    val sc = new SparkContext(conf)
    val ssc = new StreamingContext(sc, Seconds(5))

    val ds = ssc.socketTextStream("100.168.1.182", 8888)
    val result = ds.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_+_)

    result.print()
    ssc.start()
    ssc.awaitTermination()
  }
  
}