Spark3.2教程(八)一个简单的Spark Streaming处理网络流数据

本文介绍如何使用 Spark Streaming 进行实时数据处理,通过一个具体的实例——实时词频统计,展示了从设置开发环境、引入依赖、编写代码到最终测试的完整流程。

        MapReduce及Spark批处理、Spark SQL只能进行离线计算,无法满足即时性业务需求,如实时推荐、实时网站性能分析等。
        流式计算可以解决这些问题,目前有三种比较常用的流式计算框架,它们分别是Storm,Spark Streaming和Flink。
        Spark Streaming原理是接受实时传入的数据流,然后将数据按批次(batch)进行划分,然后再将这部分数据交由Spark引擎进行处理,处理完成后将结果输出到外部。
        下面使用一个简单的例子来展示。
        在一台Linux电脑上通过NetCat实现网络流发送单词数据,Spark Streming与NetCat进程通信,读取到单词后,就进行词频分析,并在控制台上输出。

一、首先在一台虚拟机(hp301)上打开NetCat,绑定端口号为9999,作为SocketServer

nc -lk 9999

二、在IDEA中,首先引入Spark Streaming依赖:

<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-streaming_2.13</artifactId>
    <version>3.2.0</version>
</dependency>

三、编写代码,Spark Streaming是作为Socket的客户端获取Server端数据

import org.apache.log4j.{Level, Logger}
import org.apache.spark.SparkConf
import org.apache.spark.SparkContext._
import org.apache.spark.storage.StorageLevel
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.internal.Logging


object TestStreming extends Logging{
  def main(args: Array[String]) {

    val log4jInitialized = Logger.getRootLogger.getAllAppenders.hasMoreElements
    if (!log4jInitialized) {
      // We first log something to initialize Spark's default logging, then we override the
      // logging level.
      logInfo("Setting log level to [WARN] for streaming example." +
        " To override add a custom log4j.properties to the classpath.")
      Logger.getRootLogger.setLevel(Level.WARN)
    }    // Create the context with a 1 second batch size
    val sparkConf = new SparkConf().setAppName("NetCatWordCount").setMaster("local[2]")
    val ssc = new StreamingContext(sparkConf, Seconds(1))

    // Create a socket stream on target ip:port and count the
    // words in input stream of \n delimited text (eg. generated by 'nc')
    // Note that no duplication in storage level only for running locally.
    // Replication necessary in distributed scenario for fault tolerance.
    //创建SocketInputDStream,接收来自ip:port发送来的流数据
    val lines = ssc.socketTextStream(args(0), args(1).toInt, StorageLevel.MEMORY_AND_DISK_SER)
    val words = lines.flatMap(_.split(" "))
    val wordCounts = words.map(x => (x, 1)).reduceByKey(_+_)
    wordCounts.print()
    ssc.start()
    ssc.awaitTermination()
  }
}

四、测试
在netcat中输入单词,并逐行发送。
在这里插入图片描述
运行程序,并设定运行参数为IP地址和端口号
在这里插入图片描述

在IDEA的控制台中可见分析后的结果。
在这里插入图片描述

### 关于 Apache Spark 3.2 版本的教程 Apache Spark 是一种分布式计算框架,广泛用于大规模数据处理。对于 Spark 3.2教程需求,以下是相关内容: #### 安装配置 在安装 Spark 3.2 时,需确保环境满足其依赖条件。例如,在创建 SparkSession 实例时,可以通过如下方式初始化会话对象[^1]: ```python from pyspark.sql import SparkSession spark = SparkSession.builder \ .appName(&#39;example-spark-app&#39;) \ .config("spark.some.config.option", "some-value") \ .getOrCreate() ``` 此代码片段展示了如何构建一个名为 `example-spark-app` 的 Spark 应用程序实例。 #### 性能优化指南 为了提升基于 Spark 和 Kafka 集成的应用性能,建议采用一些最佳实践方法。这些策略不仅适用于早期版本,也延续至 Spark 3.2 中适用[^3]。具体措施包括但不限于调整分区数量、合理设置缓冲区大小以及监控资源分配情况等。 #### 错误排查案例分析 当运行某些复杂作业如涉及 Hive 表操作时可能会遇到兼容性问题。比如启动 Apache Kylin 过程中报错 `java.lang.NoSuchMethodError` 提示找不到特定构造函数,则可能是由于 Hadoop 或其他组件间存在版本冲突所致[^2]。解决办法通常需要确认所使用的库文件是否匹配当前系统的预期版本号。 #### Storm vs Spark Streaming 对比 (Java 示例) 如果考虑替代方案或者对比不同流式架构特性的话,可以参考下面简单的 Topology 构建逻辑作为入门了解Storm的基础[^4]: ```java TopologyBuilder builder = new TopologyBuilder(); builder.setSpout("spout-id", new MyCustomSpout(), 5); builder.setBolt("bolt-id", new WordCountBolt(), 8).shuffleGrouping("spout-id"); Config config = new Config(); config.setNumWorkers(3); StormSubmitter.submitTopology("word-count-topology", config, builder.createTopology()); ``` 以上 Java 代码定义了一个基本的数据管道结构,其中包含了自定义 Spout 和 Bolt 组件交互过程。 ---
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值