Spark Streaming实现黑名单过滤（scala）

最新推荐文章于 2024-03-21 23:08:43 发布

原创

最新推荐文章于 2024-03-21 23:08:43 发布 · 1.4k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#scala

该博客介绍了如何使用Spark Streaming结合Scala实现黑名单过滤。通过将访问日志转换为DStream并与黑名单RDD进行left join操作，过滤掉黑名单中的IP地址。详细步骤包括日志和黑名单的转换以及join操作，最后提供了Scala代码示例。

对于黑名单过滤，采用的是访问日志形成的DStreaml与黑名单列表形成的RDD进行left join的方式，进行过滤。

步骤解读：

日志列表：

20190102,192.168.10.101
20190102,192.168.10.102
20190102,192.168.10.103

将访问日志转换为相应的 DStream
==> (192.168.10.101:20190102,192.168.10.101)(192.168.10.102:20190102,192.168.10.102)(192.168.10.103: 20190102,192.168.101.103)

黑名单列表（前提已知以下ip为黑名单ip）
192.168.10.101
192.168.10.102

黑名单列表转换为相应的 RDD
==>(192.168.10.101: true)(192.168.10.101: true)

将DStream和RDD进行leftjoin
(192.168.10.101: [<20190102,192.168.10.101>, <true>]) x
(192.168.10.102: [<20190102,192.168.10.102>, <true>]) x
(192.168.10.103: [<20190102,192.168.10.103>, <false>]) ==> tuple 1

用scala代码实现如下：

package com.fyy.spark.streaming

import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Seconds, StreamingContext}

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

浅夏初雨yan

关注关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

SparkStreaming黑名单过滤

weixin_39400271的博客

10-13

654

一、思路 1、获取黑名单数据，处理成RDD形式一般情况，黑名单数据存储在数据库里面，获取之后将每个黑名单数据处理成(blackName,true)的Tuple形式； 2、接收数据，处理成(k,v)形式从数据源接收到数据之后，取出name作为key，整条数据作为value，譬如：输入数据为"20190929zhangsan 18"，那么处理后为(zhan...

用spark streaming实现黑名单实时过滤

做自己喜欢做的，并坚持做下去，就够了

09-03

2573

项目介绍：本项目用spark streaming实现简单的黑名单实时过滤，用scala语言编写，用到的知识点如下： 1.RDD,弹性分布式数据集 2.ssc.socketTextStream("localhost",9999),利用socketTextStream接口编程，监控端口数据 3.leftOuterJoin 4.transform函数使用 5. nc -lkv 9999

1 条评论您还未登录，请先登录后发表或查看评论

spark streaming scala 过滤黑名单

贾红平

04-17

512

本文章主要通过spark streaming实时过滤黑名单import org.apache.spark.SparkConf import org.apache.spark.streaming.StreamingContext import org.apache.spark.streaming.Seconds /** * @author jhp * spark stream...

spark streaming -过滤黑名单

贾红平

04-16

981

通过spark streaming实时统计过滤黑名单,稍微改动一下,可以结合到真实企业案例中import java.util.ArrayList; import java.util.List; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spa...

【Spark】Spark Streaming 动态更新filter关注的内容

weixin_34415923的博客

01-11

371

Spark Streaming 动态更新filter关注的内容 spark streaming new thread on driver_百度搜索(1 封私信)Spark Streaming 动态更新filter关注的内容？ - 知乎

Spark实现黑名单实时过滤-内含源码以及设计说明书(可以自己运行复现).zip

05-08

总之，通过Spark Streaming实现黑名单实时过滤是一个实用且技术含量高的任务。通过这个教程，读者不仅能学习到实时数据处理的基本概念，还能掌握Spark Streaming的实际应用技巧，为今后的大数据实时处理项目打下坚实...

Spark Streaming套接字流实现黑名单过滤头歌答案

最新发布

11-12

在头歌平台上，使用Spark Streaming通过套接字流实现黑名单过滤功能，可参考以下内容。 ### 实现思路套接字流是通过监听Socket端口接收的数据，相当于Socket之间的通信。Spark Streaming通过监听套接字端口获取流...

spark_黑名单过滤

m0_67390788的博客

05-15

426

wedasasda 数据如下： 3333 flume 4444 ooize 5555 flume 4444 ooize 5555 flume 2222 hive 3333 hadoop 4444 hbase 3333 flume 4444 ooize 5555 flume flume 1 hadoop 2 import java.io.Serializable; import java.util.List; import org.apache.spark.SparkConf; import org.a

sparkStreaming程序过滤kafka json数据两种方法

qq_37923600的博客

02-22

2210

方法1：在foreachRDD之前，就是streams之后过滤我取的是type值为null（不是"null"）的数据 val sv= stream.map(_.value()) .filter(jd => { val json1 = jd.substring(0, jd.lastIndexOf("}")+1) JSON.parseObj...

sparkstreaming使用python实现黑名单过滤

weixin_43451620的博客

05-13

780

sparkstreaming使用python实现黑名单过滤场景如下：zs(张三),ls(李四)在黑名单中，ww(王五)不在黑名单中。将zs,ls过滤，得出ww不在黑名单，代码如下： from pyspark import SparkContext from pyspark.streaming import StreamingContext #黑名单过滤 #sc = SparkContext(master=“local[2]”,appName=“TransformAPP”) ssc = StreamingC

Streaming黑名单过滤(transform算子的使用)

UniqueChunBlog

01-10

831

原始数据： 20180808,zs 20180808,ls 20180808,ww 黑名单列表： zs ls 思路： 1、原始日志可以通过Streaming直接读取成一个DStream 2、名单通过RDD来模拟一份逻辑实现： 1、将DStream转成(黑名单只有名字) (zs,(20180808,zs))(ls,(20180808,ls))(ww,( 20180808,ww)) 2、然后将...

SparkStreaming之黑名单过滤

CatherineHuangTT的博客

11-26

889

import org.apache.spark.SparkConf import org.apache.spark.broadcast.Broadcast import org.apache.spark.rdd.RDD import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream} import org.apach

SparkStreaming 实现广告计费系统中在线黑名单过滤实战

吾心光明

08-23

2968

本博文内容主要包括以下内容：1、在线黑名单过滤实现解析 2、SparkStreaming实现在线黑名单过滤一、在线黑名单过滤实现解析：流式处理是现代数据处理的主流,各种电子商务网站,搜索引擎等网站等,都需要做流式比如，通过用户的点击和购买来推断出用户的兴趣爱好，后台能实时计算，这是比较重要的，给用户推荐最好的商品等，推荐更新的信息，给用户更好的服务。Spark Streaming就是Spark

教材P164操作题。编写Spark Steaming程序，使用leftOuterJoin操作及filter方法过滤掉黑名单的数据

m0_53291740的博客

04-27

381

import java.util.ArrayList; import java.util.Arrays; import java.util.List; import java.util.regex.Pattern; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; import org.apache.spar...

使用Spark Streaming黑名单过滤

06-15

623

需求：有日志例如： 20200615，zs 20200615，ls 20200615，ww 有黑名单： zs ls 思路： a、将日志转换成（zs:20200615,zs)(ls:20200615,ls)(ww:20200615,ww） b、将黑名单转成 (zs:true)(ls:true) c、leftjoin package com.kinglone.streaming import org.apache.spark.SparkConf import org.apache.spark.stream

scala程序写Spark程序实现黑名单过滤

kexin_010的博客

12-19

1122

package com.bigdata import org.apache.spark.rdd.RDD import org.apache.spark.{SparkContext, SparkConf} /** * */ object BlackWhite { def main(args: Array[String]) { createContext

通过Python实现基于Spark-Streaming的黑名单实时过滤系统的设计与实现

Dyan_csdn的博客

03-21

1149

通过使用Spark的高级API，可以轻松地实现复杂的数据处理逻辑，同时保持代码的简洁性和可维护性。3. **实时数据流处理**：使用Spark Streaming的DStream（Discretized Stream）来处理实时数据流。2. **黑名单数据结构**：创建一个黑名单数据集，通常是一个包含黑名单项的集合或RDD（弹性分布式数据集）。5. **输出**：定义处理结果的输出方式，如保存到HDFS、数据库或其他存储系统。4. **过滤逻辑**：设计过滤逻辑，以便在数据流中识别并过滤掉黑名单中的项。

Spark Streaming实战之黑名单过滤

while false

11-02

1837

1.需求场景访问日志： 201801,zs 201802,ls 201803,ww ..... 黑名单： zs,ls... 现在需要把黑名单中的人从访问日志中给过滤掉，然后得到一份新的访问日志 2.思路分析要实现上边的需求，首先要进行思路分析，即如何实现我们可以把黑名单数据先变成一个RDD，将它变成(zs,true) (ls,true)这样的形式，然后再将访问日志变成(z...

Spark Streaming实时流处理项目实战笔记——实战之黑名单过滤

优质后端技术知识记录

11-30

952

思路源代码窗口函数代码实现 object Black extends App { import org.apache.spark.SparkConf import org.apache.spark.streaming.{Seconds, StreamingContext} val sparkConf = new SparkCon...