spark streaming实时计数

最新推荐文章于 2025-05-02 14:42:31 发布

原创最新推荐文章于 2025-05-02 14:42:31 发布 · 715 阅读

0 ·

CC 4.0 BY-SA版权

spark 专栏收录该内容

53 篇文章

订阅专栏

本文介绍如何在Linux环境下使用Spark Streaming进行实时数据处理。通过YUM工具安装必要组件，利用Netcat接收数据，并展示如何编写Spark Streaming应用程序实现单词计数。此应用接收来自特定主机和端口的数据流，将数据拆分为单词，然后计算每个单词出现的频率。

● 在Linux终端窗口可以直接使用yum工具进行安装：

[root@hadoop-01 ~]# yum install -y nc

● 发送数据

[root@hadoop-01 ~]# nc -lk 8866

● 使用Streaming实时计数

package com.ws.streaming
import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}
import org.apache.spark.streaming.{Milliseconds, StreamingContext}
import org.apache.spark.{SparkConf, SparkContext}

/**
  *实时计数
  */
object StreamingWc {

  def main(args: Array[String]): Unit = {

    //离线任务是创建SparkContext;实现实时计算，用StreamingContext
    
    val conf = new SparkConf().setAppName("StreamingWc").setMaster("local[*]")
    val sc = new SparkContext(conf)

    //StreamingContext是对SparkContext的包装，包了一层就增加了实时的功能
    //第二个参数是小批次产生的时间间隔
    val ssc = new StreamingContext(sc, Milliseconds(5000))

    val data: ReceiverInputDStream[String] = ssc.socketTextStream("hadoop-01", 8866)

    val flatData: DStream[String] = data.flatMap(_.split(" "))

    val arr: DStream[(String, Int)] = flatData.map((_, 1))

    val result = arr.reduceByKey(_ + _)

    result.print()

    //启动sparksteaming程序
    ssc.start()
    //等待优雅的退出
    ssc.awaitTermination()
  }
}