11 Flink CEP 简介

11 Flink CEP 简介

  • 复杂事件处理 CEP

    一个或多个由简单事件构成的事件流通过一定的规则匹配,然后输出用户想得到的数据,满足规则的复杂事件。特征:

    • 目标:从有序的简单事件流中发现一些高阶特征

    • 输入:一个或多个由简单事件构成的事件流

    • 处理:识别简单事件之间的内在联系,多个符合一定规则的简单事件构成复杂事件

    • 输出:满足规则的复杂事件

在这里插入图片描述
CEP 用于分析低延迟、频繁产生的不同来源的事件流。CEP 可以帮助在复杂的、不相关的事件流中找出有意义的模式和复杂的关系,以接近实时或准实时的获得通知并阻止一些行为。CEP 支持在流上进行模式匹配,根据模式的条件不同,分为连续的条件或不连续的条件;模式的条件允许有时间的限制,当在条件范围内没有达到满足的条件时,会导致模式匹配超时。看起来很简单,但是它有很多不同的功能:
- 输入的流数据,尽快产生结果
- 在 2 个 event 流上,基于时间进行聚合类的计算
- 提供实时/准实时的警告和通知
- 在多样的数据源中产生关联并分析模式
- 高吞吐、低延迟的处理

市场上有多种 CEP 的解决方案,例如 Spark、Samza、Beam 等,但他们都没有提供专门的 library 支持。但是 Flink 提供了专门的 CEP library

  • Flink CEP

    Flink 为 CEP 提供了专门的 Flink CEP library,它包含如下组件:

    • Event Stream

    • pattern 定义

    • pattern 检测

    • 生成 Alert
      在这里插入图片描述

      首先,开发人员要在 DataStream 流上定义出模式条件,之后 Flink CEP 引擎进行模式检测,必要时生成告警。为了使用 Flink CEP,我们需要导入依赖:

      <dependency>
       <groupId>org.apache.flink</groupId>
       <artifactId>flink-cep_2.12</artifactId>
       <version>1.11.2</version>
      </dependency>
      
    • Pattern API

      每个 Pattern 都应该包含几个步骤,或者叫做 state。从一个 state 到另一个 state,通常我们需要定义一些条件,例如下列的代码:

      val loginFailPattern = Pattern.begin[LoginEvent]("begin")
       .where(_.eventType.equals("fail"))
       .next("next")
       .where(_.eventType.equals("fail"))
       .within(Time.seconds(10)
      

      每个 state 都应该有一个标示:例如.beginLoginEvent中的"begin"每个 state 都需要有一个唯一的名字,而且需要一个 filter 来过滤条件,这个过

      滤条件定义事件需要符合的条件,例如:.where(_.eventType.equals(“fail”))我们也可以通过 subtype 来限制 event 的子类型:start.subtype(SubEvent.class).where(…);事实上,你可以多次调用 subtype 和 where 方法;而且如果 where 条件是不相关的,你可以通过 or 来指定一个单独的 filter 函数:pattern.where(…).or(…);之后,我们可以在此条件基础上,通过 next 或者 followedBy 方法切换到下一个state,next 的意思是说上一步符合条件的元素之后紧挨着的元素;而 followedBy 并不要求一定是挨着的元素。这两者分别称为严格近邻和非严格近邻。

      val strictNext = start.next("middle")
      val nonStrictNext = start.followedBy("middle")
      

      最后,我们可以将所有的 Pattern 的条件限定在一定的时间范围内:

      next.within(Time.seconds(10))
      

      这个时间可以是 Processing Time,也可以是 Event Time。

    • Pattern 检测

      通过一个 input DataStream 以及刚刚我们定义的 Pattern,我们可以创建一个PatternStream:

      val input = ...
      val pattern = ...
      val patternStream = CEP.pattern(input, pattern)
      val patternStream = CEP.pattern(loginEventStream.keyBy(_.userId), loginFailPattern)
      

      一旦获得 PatternStream,我们就可以通过 select 或 flatSelect,从一个 Map 序列找到我们需要的警告信息。

    • select

      select 方法需要实现一个 PatternSelectFunction,通过 select 方法来输出需要的警告。它接受一个 Map 对,包含 string/event,其中 key 为 state 的名字,event 则为真实的 Event。

      val loginFailDataStream = patternStream
       .select((pattern: Map[String, Iterable[LoginEvent]]) => {
       val first = pattern.getOrElse("begin", null).iterator.next()
       val second = pattern.getOrElse("next", null).iterator.next()
       Warning(first.userId, first.eventTime, second.eventTime, "warning")
       })
      
    • flatSelect

      通过实现 PatternFlatSelectFunction,实现与 select 相似的功能。唯一的区别就是 flatSelect 方法可以返回多条记录,它通过一个 Collector[OUT]类型的参数来将要输出的数据传递到下游。

    • 超时事件的处理

      通过 within 方法,我们的 parttern 规则将匹配的事件限定在一定的窗口范围内。当有超过窗口时间之后到达的 event,我们可以通过在 select 或 flatSelect 中,实现PatternTimeoutFunction 和 PatternFlatTimeoutFunction 来处理这种情况。

      val patternStream: PatternStream[Event] = CEP.pattern(input, pattern)
      val outputTag = OutputTag[String]("side-output")
      val result: SingleOutputStreamOperator[ComplexEvent] = patternStream.select
      (outputTag){
       (pattern: Map[String, Iterable[Event]], timestamp: Long) => TimeoutEvent()
      } {
       pattern: Map[String, Iterable[Event]] => ComplexEvent()
      }
      val timeoutResult: DataStream<TimeoutEvent> = result.getSideOutput(outputTag)
      
### Flink CEP 使用指南 #### 什么是Flink CEP? 在实时数据处理领域,Apache Flink 成为了一个重要开源流处理框架[^1]。Flink 不仅提供高吞吐量、低延迟的数据处理能力,还特别支持复杂事件处理(CEP)。Flink CEPFlink 的一个库,允许用户以声明方式指定事件模式,并从数据流中识别这些模式的实例。 #### 关键概念 Flink CEP 中可以定义复杂的事件模式并将其应用到数据流上。一旦数据流中的事件与所定义模式相匹配,则可触发特定操作,例如生成警告或启动新任务等[^3]。内部实现方面,Flink CEP 利用了NFA(非确定有限自动机),这是一种由节点和边构成的状态图结构,其中包含了起始状态、中间状态以及结束状态等多种类型的节点;而边则被分类为take、ignore 和 proceed三类[^4]。 #### 示例代码 下面是一个简单的例子展示如何利用Python编写一段程序来检测交易金额超过一定阈值的情况: ```python from pyflink.datastream import StreamExecutionEnvironment from pyflink.table import StreamTableEnvironment, EnvironmentSettings from pyflink.dataset.execution_environment import get_execution_environment from pyflink.datastream.connectors.kafka import FlinkKafkaConsumer from pyflink.common.serialization import SimpleStringSchema import json def main(): env = StreamExecutionEnvironment.get_execution_environment() t_env = StreamTableEnvironment.create(env) kafka_consumer = FlinkKafkaConsumer( topics='transactions', deserialization_schema=SimpleStringSchema(), properties={'bootstrap.servers': 'localhost:9092', 'group.id': 'test'} ) ds = env.add_source(kafka_consumer)\ .map(lambda value: json.loads(value))\ .key_by(lambda transaction: transaction['account_id'])\ pattern = Pattern.begin("start") \ .where(lambda transaction: float(transaction["amount"]) > 1000)\ cep_result = CEP.pattern(ds, pattern).select() if __name__ == '__main__': main() ``` 此段脚本创建了一个名为`pattern`的对象用于描述我们要查找的目标序列——即任何单笔转账数额大于一千美元的情形。之后调用`.select()`函数获取满足条件的结果集。 #### 教程资源链接 对于更详细的教程和其他学习资料,请参阅官方文档或其他在线课程平台上的相关内容。这里提供的只是一个非常基础的例子用来说明基本的概念和技术细节。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值