Spark3.2教程（八）一个简单的Spark Streaming处理网络流数据

原创已于 2022-05-27 11:26:04 修改 · 1.3k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#spark #大数据

于 2021-12-23 22:00:00 首次发布

Spark 专栏收录该内容

11 篇文章

订阅专栏

本文介绍如何使用 Spark Streaming 进行实时数据处理，通过一个具体的实例——实时词频统计，展示了从设置开发环境、引入依赖、编写代码到最终测试的完整流程。

        MapReduce及Spark批处理、Spark SQL只能进行离线计算，无法满足即时性业务需求，如实时推荐、实时网站性能分析等。
        流式计算可以解决这些问题，目前有三种比较常用的流式计算框架，它们分别是Storm，Spark Streaming和Flink。
        Spark Streaming原理是接受实时传入的数据流，然后将数据按批次（batch）进行划分，然后再将这部分数据交由Spark引擎进行处理，处理完成后将结果输出到外部。
        下面使用一个简单的例子来展示。
        在一台Linux电脑上通过NetCat实现网络流发送单词数据，Spark Streming与NetCat进程通信，读取到单词后，就进行词频分析，并在控制台上输出。

一、首先在一台虚拟机(hp301)上打开NetCat，绑定端口号为9999，作为SocketServer

nc -lk 9999

二、在IDEA中，首先引入Spark Streaming依赖：

<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-streaming_2.13</artifactId>
    <version>3.2.0</version>
</dependency>

三、编写代码，Spark Streaming是作为Socket的客户端获取Server端数据

import org.apache.log4j.{Level, Logger}
import org.apache.spark.SparkConf
import org.apache.spark.SparkContext._
import org.apache.spark.storage.StorageLevel
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.internal.Logging


object TestStreming extends Logging{
  def main(args: Array[String]) {

    val log4jInitialized = Logger.getRootLogger.getAllAppenders.hasMoreElements
    if (!log4jInitialized) {
      // We first log something to initialize Spark's default logging, then we override the
      // logging level.
      logInfo("Setting log level to [WARN] for streaming example." +
        " To override add a custom log4j.properties to the classpath.")
      Logger.getRootLogger.setLevel(Level.WARN)
    }    // Create the context with a 1 second batch size
    val sparkConf = new SparkConf().setAppName("NetCatWordCount").setMaster("local[2]")
    val ssc = new StreamingContext(sparkConf, Seconds(1))

    // Create a socket stream on target ip:port and count the
    // words in input stream of \n delimited text (eg. generated by 'nc')
    // Note that no duplication in storage level only for running locally.
    // Replication necessary in distributed scenario for fault tolerance.
    //创建SocketInputDStream，接收来自ip:port发送来的流数据
    val lines = ssc.socketTextStream(args(0), args(1).toInt, StorageLevel.MEMORY_AND_DISK_SER)
    val words = lines.flatMap(_.split(" "))
    val wordCounts = words.map(x => (x, 1)).reduceByKey(_+_)
    wordCounts.print()
    ssc.start()
    ssc.awaitTermination()
  }
}