使用Spark Streaming完成黑名单过滤

最新推荐文章于 2024-08-24 09:53:43 发布

原创最新推荐文章于 2024-08-24 09:53:43 发布 · 393 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#Spark Streaming

Spark大数据生态圈学习总结及项目实战同时被 3 个专栏收录

22 篇文章

订阅专栏

BigData

19 篇文章

订阅专栏

大数据平台Spark生态系统

13 篇文章

订阅专栏

本文介绍如何使用Apache Spark Streaming实现基于Scala的黑名单过滤功能。通过在Maven项目中配置Spark依赖，创建SparkConf并设置AppName，利用StreamingContext进行实时数据流处理。文章详细展示了如何构建黑名单并将其与实时数据流进行leftOuterJoin操作，从而实现有效过滤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

首先在maven工程的pom.xml文件加入以下依赖：

<properties>
        <spark.version>2.2.0</spark.version>
    </properties>
 <!-- Spark Streaming 依赖-->
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-streaming_2.11</artifactId>
            <version>${spark.version}</version>
        </dependency>

TransformApp.scala

package spark

import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Seconds, StreamingContext}

/**
  * 黑名单过滤
  */
object TransformApp {


  def main(args: Array[String]): Unit = {

    val sparkConf = new SparkConf().setMaster("local[2]").setAppName("NetworkWordCount")

    /**
      * 创建StreamingContext需要两个参数：SparkConf和batch interval
      */
    val ssc = new StreamingContext(sparkConf, Seconds(5))


    /**
      * 构建黑名单
      */
    val blacks = List("zs", "ls")
    val blacksRDD = ssc.sparkContext.parallelize(blacks).map(x => (x, true))

    val lines = ssc.socketTextStream("localhost", 6789)
    val clicklog = lines.map(x => (x.split(",")(1), x)).transform(rdd => {
      rdd.leftOuterJoin(blacksRDD)
        .filter(x=> x._2._2.getOrElse(false) != true)
        .map(x=>x._2._1)
    })

    clicklog.print()

    ssc.start()
    ssc.awaitTermination()
  }
}