sparkStream 实例

本文详细介绍如何使用Spark Streaming进行实时数据处理。首先,通过搭建Spark环境并运行内置示例,展示如何利用NetworkWordCount进行字数统计。接着,提供了一个编程实例,演示如何创建SparkConf,初始化StreamingContext,设置接收socket数据,以及对数据进行flatMap、map和reduceByKey操作。最后,通过nc命令传输数据,验证了Spark Streaming的功能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、搭建spark环境

https://blog.youkuaiyun.com/starkpan/article/details/86437089

二、实例

1、spark中自带的例子

打开两个termial(或shell终端)

    一个终端输入,通过nc进行内容传输

nc -lk 9999
a a a b b b c c c c c

    一个终端启动sparkStream实例,这里是spark自带的example,如果执行报异常,请查看路径

spark-submit --master local[2] --class org.apache.spark.examples.streaming.NetworkWordCount --name NetworkWordCount /Users/panstark/Documents/app/spark-2.1.0-bin-2.6.0-cdh5.7.0/examples/jars/spark-examples_2.11-2.1.0.jar localhost 9999

  git代码

https://github.com/apache/spark/blob/master/examples/src/main/scala/org/apache/spark/examples/streaming/NetworkWordCount.scala

2、编程实例

import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Seconds, StreamingContext}

/**
  * sparkStreaming
  * 通过netWork传输实现字数统计
  * nc -lk 9999
  */
object NetworkWordCount {

  def main(args: Array[String]): Unit = {
    //创建sparkConf
    val sparkConf = new     SparkConf().setMaster("local[2]").setAppName("NetworkWordCount")

    /**
      *创建StreamingContext
      */
    val ssc = new StreamingContext(sparkConf,Seconds(5))
    //创建socket接收端
    val lines = ssc.socketTextStream("localhost",9999)
    //对接受到的内容进行处理
    val result = lines.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_)
    //打印。
    result.print()

    ssc.start()
    ssc.awaitTermination()

  }
}

通过nc传输数据

nc -lk 9999
a a a b b b c c c c c

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值