spark streaming实时计数

本文介绍如何在Linux环境下使用Spark Streaming进行实时数据处理。通过YUM工具安装必要组件,利用Netcat接收数据,并展示如何编写Spark Streaming应用程序实现单词计数。此应用接收来自特定主机和端口的数据流,将数据拆分为单词,然后计算每个单词出现的频率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

● 在Linux终端窗口可以直接使用yum工具进行安装:

[root@hadoop-01 ~]# yum install -y nc

● 发送数据

[root@hadoop-01 ~]# nc -lk 8866

● 使用Streaming实时计数

package com.ws.streaming
import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}
import org.apache.spark.streaming.{Milliseconds, StreamingContext}
import org.apache.spark.{SparkConf, SparkContext}

/**
  *实时计数
  */
object StreamingWc {

  def main(args: Array[String]): Unit = {

    //离线任务是创建SparkContext;实现实时计算,用StreamingContext
    
    val conf = new SparkConf().setAppName("StreamingWc").setMaster("local[*]")
    val sc = new SparkContext(conf)

    //StreamingContext是对SparkContext的包装,包了一层就增加了实时的功能
    //第二个参数是小批次产生的时间间隔
    val ssc = new StreamingContext(sc, Milliseconds(5000))

    val data: ReceiverInputDStream[String] = ssc.socketTextStream("hadoop-01", 8866)

    val flatData: DStream[String] = data.flatMap(_.split(" "))

    val arr: DStream[(String, Int)] = flatData.map((_, 1))

    val result = arr.reduceByKey(_ + _)

    result.print()

    //启动sparksteaming程序
    ssc.start()
    //等待优雅的退出
    ssc.awaitTermination()
  }
}
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值