Flink转换算子Transform

本文详细介绍了 Apache Flink 中的数据流操作,包括 map、flatMap、keyBy 和各种聚合算子如 min、minBy、reduce 的使用方法及区别。同时探讨了 split、select、connect、comap 和 union 在数据流处理中的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

①map、flatform
map:输入一个元素,输出一个元素
flatMap:打平操作,将输入的元素压平,从而对输出结果的数量不做要求,可以为0、1或者多个
②keyBy
在逻辑上将Stream根据key的Hash值进行分区,DataStream → KeyedStream:逻辑地将一个流拆分成不相交的分区
③滚动聚合算子(Rolling Aggregation)
这些算子可以针对 KeyedStream 的每一个支流做聚合。
sum()
min()
max()
minBy()
maxBy()
min与minBy的区别
假设数据如下:
sensor_1,1547718199,35.8
sensor_1,1547718201,15.4
sensor_1,1547718302,6.7
sensor_1,1547718405,38.1
sensor_1,1547718500,3
sensor_1,1547718600,12.5
sensor_1,1547718700,13
min程序:

val resultStream = inputStream
      .map(data => {
        val arr = data.split(",")
        SensorReading(arr(0),arr(1).toLong,arr(2).toDouble)
      })
      .keyBy("id")
      .min("temperature")

结果:
SensorReading(sensor_1,1547718199,35.8)
SensorReading(sensor_1,1547718199,15.4)
SensorReading(sensor_1,1547718199,6.7)
SensorReading(sensor_1,1547718199,6.7)
SensorReading(sensor_1,1547718199,3.0)
SensorReading(sensor_1,1547718199,3.0)
SensorReading(sensor_1,1547718199,3.0)
min只找到对应字段的最小值,其他字段为首次出现值

minBy程序:

val resultStream = inputStream
  .map(data => {
    val arr = data.split(",")
    SensorReading(arr(0),arr(1).toLong,arr(2).toDouble)
  })
  .keyBy("id")
  .minBy("temperature")

结果:
SensorReading(sensor_1,1547718199,35.8)
SensorReading(sensor_1,1547718201,15.4)
SensorReading(sensor_1,1547718302,6.7)
SensorReading(sensor_1,1547718302,6.7)
SensorReading(sensor_1,1547718500,3.0)
SensorReading(sensor_1,1547718500,3.0)
SensorReading(sensor_1,1547718500,3.0)
minBy以数入字段为基础找到其最小值及其这个最小值对应的其他字段
④reduce
KeyedStream → DataStream:一个分组数据流的聚合操作,合并当前的元素和上次聚合的结果,产生一个新的值,返回的流中包含每一次聚合的结果,而不是只返回最后一次聚合的最终结果。
ⅰ.lambda表达式:

  def reduce(fun: (T, T) => T): DataStream[T] = {
  }

其中第一个T为先前聚合结果,后一个T为新数据
程序:

    val resultStream = inputStream
      .map(data =>{
        val arr = data.split(",")
        SensorReading(arr(0),arr(1).toLong,arr(2).toDouble)
      })
      .keyBy("id")
      .reduce((curSensor,newSensor) =>{
SensorReading(curSensor.id,newSensor.timestamp,
curSensor.temperature.min(newSensor.temperature))
      })

ⅱ.ReduceFunction

def reduce(reducer: ReduceFunction[T]): DataStream[T] = {
  }
程序:
val resultStream = inputStream
      .map(data =>{
        val arr = data.split(",")
        SensorReading(arr(0),arr(1).toLong,arr(2).toDouble)
      })
      .keyBy("id")
      .reduce(new MyReduceFunction)

class MyReduceFunction extends ReduceFunction[SensorReading]{
  override def reduce(t: SensorReading, t1: SensorReading): SensorReading = {
    SensorReading(t.id,t1.timestamp,t.temperature.min(t1.temperature))
  }
}

⑤split将一个流分成多个流DataStream → SplitStream
select将分开的流选取出来SplitStream→DataStream
程序:

    val splitStream = dataStream
      .split(data =>{
        if(data.temperature > 20) List("high") else List("low")
      })

    val highStream = splitStream.select("high")
    val lowStream = splitStream.select("low")
    val allStream = splitStream.select("high","low")

⑥connect、comap、union
Connect
DataStream,DataStream → ConnectedStreams:连接两个保持他们类型的数据流,两个数据流被 Connect 之后,只是被放在了一个同一个流中,内部依然保持各自的数据和形式不发生任何变化,两个流相互独立。
程序:

val splitStream = dataStream
      .split(data => {
        if(data.temperature > 10) List("high") else List("low")
      })

    val highStream = splitStream.select("high")
    val lowStream = splitStream.select("low")

    val allStream = highStream.connect(lowStream.map(data => {
      (data.id,data.temperature)
    }))

comap
connectedStreams → DataStream:作用于 ConnectedStreams 上,功能与 map和 flatMap 一样,对 ConnectedStreams 中的每一个 Stream 分别进行 map 和 flatMap处理。

def map[R: TypeInformation](fun1: IN1 => R, fun2: IN2 => R): 
  }

其中fun1与fun2输出可不同

val resultStream = allStream
      .map(
        data => (data.id,data.temperature,"high")
        ,
        data => data
      )

union
DataStream → DataStream:对两个或者两个以上的 DataStream 进行 union 操 作,产生一个包含所有 DataStream 元素的新 DataStream

val allStream = highStream.union(lowStream)
val resultStream = allStream.map(data =>{
      (data.id,data.temperature)
})

connect 与 union 区别:
①union流的类型必须是一样,union 可以操作多个流DataStream → DataStream。
②connect流的类型可以不一样,在之后的 coMap中再去调整成为connectedStreams → DataStream,connect 只能操作两个流。

<think>好的,我现在需要回答用户关于Flink算子使用说明和示例的问题。首先,我得回顾一下用户提供的引用内容,确保准确引用相关信息。用户提供了三个引用,分别是关于Flink的数据源算子、聚合算子Transform算子的示例,特别是map操作。 首先,我应该按照用户的要求,结构清晰地分步骤说明。根据系统级指令,需要包括数据源算子转换算子和数据汇算子,每个部分都要有代码示例,并且正确使用LaTeX格式。比如在解释转换算子时,提到的map、filter、keyBy、reduce等,要给出相应的Java或Scala代码示例。 然后,要确保每个引用的内容被正确引用到。例如,在数据源算子部分,引用[1]和[3]提到了构建环境和fromCollection的使用,应该在相关段落末尾添加[^1]和[^3]。聚合算子部分引用[2]中的内容,需要标注[^2]。 接下来,生成相关问题。问题需要围绕Flink算子的更多细节、最佳实践和应用场景展开,比如数据源算子的类型、转换算子的优化方法等。确保问题与用户提供的引用内容相关,并且能够引导进一步学习。 同时,检查LaTeX语法是否正确,比如行内公式用$...$,独立公式用$$...$$。不过在这个回答中可能数学公式不多,但如果有的话需要注意格式。例如,在解释窗口操作时,如果有时间窗口的表达式,需要用正确的格式。 另外,确保使用中文回答,避免任何Markdown格式,除了代码块需要用三个反引号包裹。代码示例需要根据引用中的内容提供,比如引用[3]中的Scala代码,可以展示map操作,而引用[2]中的聚合算子可以用Java示例。 最后,检查整体结构是否清晰,分为数据源、转换、数据汇三个部分,每个部分都有说明和示例,并且相关问题符合要求。同时,确保所有引用标识正确对应,如引用[1]、[2]、[3]分别在适当的位置标注。</think>### Flink算子使用说明及示例 Flink算子分为**数据源(Source)**、**转换Transformation)**和**数据汇(Sink)**三类。以下结合示例说明其使用方法: --- #### 一、数据源算子(Source Operators) 数据源算子用于从外部系统(如文件、消息队列、集合等)读取数据。 **示例**:从集合构建数据源(Scala): ```scala val env = ExecutionEnvironment.getExecutionEnvironment val textDataSet: DataSet[String] = env.fromCollection( List("张三,1", "李四,2", "王五,3", "张三,4") ) // 从内存集合生成数据集[^3] ``` 其他常用数据源包括`readTextFile`(文件读取)、`fromElements`(元素集合)等。 --- #### 二、转换算子Transformation Operators) 转换算子对数据进行处理,核心操作包括: 1. **`map`**:逐条处理数据 ```scala // 将字符串转换为元组(姓名,数值) val tupleData = textDataSet.map { str => val parts = str.split(",") (parts(0), parts(1).toInt) } // 输出如("张三",1) ``` 2. **`filter`**:过滤数据 ```java DataStream<String> filtered = dataStream.filter(value -> value.startsWith("A")); ``` 3. **`keyBy`**:按Key分组 ```java DataStream<Tuple2<String, Integer>> keyedStream = dataStream .keyBy(value -> value.f0); // 按元组第一个字段分组 ``` 4. **`reduce`**:聚合操作 ```java DataStream<Tuple2<String, Integer>> reduced = keyedStream .reduce((v1, v2) -> new Tuple2<>(v1.f0, v1.f1 + v2.f1)); // 对数值求和[^2] ``` 5. **`window`**:窗口计算 ```java dataStream.keyBy(value -> value.id) .window(TumblingEventTimeWindows.of(Time.seconds(10))) // 定义10秒滚动窗口 .sum("count"); // 按窗口统计总和 ``` --- #### 三、数据汇算子(Sink Operators) 数据汇负责将结果输出到外部系统,如文件、数据库或控制台。 **示例**:输出到文件(Java): ```java DataStream<String> result = ...; result.writeAsText("output/path"); // 写入文本文件 ``` ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值