Flink 的算子介绍(上)

本文详细介绍了Flink中的数据加工操作,包括map、flatMap、filter和process函数,以及分组操作的关键字keyBy。接着讨论了Flink中的聚合操作,如reduce、aggregate和window的应用,展示了如何进行数据的汇总和分组计算。此外,还提到了窗口函数的不同类型及其在处理数据流时的重要性。

数据加工三类重要的操作

所有的数据处理工具,都离不开数据加工,我总结了最最常用的数据加工操作只有下面四种:

  • 转换: (1->N 列转行 , A -> B ),一条一条的处理
  • 分组:group by 相同数据的聚集
  • 聚合: max min sum avg count topN bitMap 中位数 统计学上的指标
  • 连接:(合(union all)、交(inner join on condition)、并(union)、补(left join on codition where is null)) 集合的运算

转换

Flink 中有那些转化操作呢?就是下面的这些,在 Flink 中这叫做算子

  • map ,输入一条数据后,必须输出一条数据,输出入和输出不一定是相同的数据类型。
  • flatMap: 输入一条数据后,可以不输出数据,也可以输出多条数据,是 map 的加强版。
  • filter: 根据判断条件,返回 true or false ,true 的留下,false 不在往下发送。
  • process: 全年选手,可以模拟实现 map、flatMap、filter 三个的逻辑。

下面是代码:


import org.apache.flink.api.common.functions.FilterFunction;
import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.api.common.functions.MapFunction;
import org.apache.flink.api.common.functions.RichFilterFunction;
import org.apache.flink.streaming.api.TimeCharacteristic;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.ProcessFunction;
import org.apache.flink.util.Collector;
import java.util.ArrayList;
import java.util.Arrays;
import java.util.Collection;

/**
 * @className: TranslateDataShow
 * @Description:
 * @Author: wangyifei
 * @Date: 2023/2/20 15:37
 */
public class TranslateDataShow {
   
   
    public static void main(String[] args) throws Exception {
   
   
//        showMapUsage();
//        showFlatMapUsage();
        showProcessUsage();
    }

    private static void showProcessUsage() throws Exception {
   
   
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime);
        env.setParallelism(1);
        Collection<String> list = new ArrayList<>();
        list.add("ok,1,2,3,4,5");
        SingleOutputStreamOperator<String> src = env.fromCollection(list);
        src.filter(new RichFilterFunction<String>() {
   
   
            @Override
            public boolean filter(String value) throws Exception {
   
   
                return value.split(",")[0].equals("ok");
            }
        }).process(new ProcessFunction<String, String>() {
   
   
            @Override
            public void processElement(String s, ProcessFunction<String, String>.Context context, Collector<String> collector) throws Exception {
   
   
                // 模拟 flatMap 的功能
                Arrays.stream(s.split("//s*,//s*")).forEach(x->{
   
   
                    collector.collect(x);
                });
                // 模拟 filter 的功能
//                if(s.split("//s*,//s*")[0].equals("ok")){
   
   
//                    collector.collect(s);
//                }
            }
        }).print();
        env.execute();
    }

    private static void showFlatMapUsage() throws Exception {
   
   
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime);
        env.setParallelism(1);
        Collection<String> list = new ArrayList<>();
        list.add("ok,1,2,3,4,5");
        SingleOutputStreamOperator<String> src = env.fromCollection(list);
        src.filter(new RichFilterFunction<String>() {
   
   
            @Override
            public boolean filter(String value) throws Exception {
   
   
                return value.split(",")[0].equals("ok");
            }
        }).flatMap(new FlatMapFunction<String,String>(){
   
   

            @Override
            public void flatMap(String value, Collector<String> out) throws Exception {
   
   
                for(String e:value.split(",")){
   
   
                    out.collect(e);
                }
            }
        }).print("------");
        env.execute("test-flatMap");
    }

    private static void showMapUsage() throws Exception {
   
   
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime);
        env.setParallelism(1);
        Collection<String> list = new ArrayList<>();
        list.add("ok,1");
        list.add("ok,2");
        list.add("ok,3");
        list.add("no,4");
        list.add("ok,5");
        SingleOutputStreamOperator<String> src = env.fromCollection(list);
        src.filter(new FilterFunction<String>() {
   
   
            @Override
            public boolean filter(String value) throws Exception {
   
   
                return value.split(",")[0].equals("ok");
            }
        }).map(new MapFunction<String, String>() {
   
   
            @Override
            public String map(String value) throws Exception {
   
   
                return value.split(",")[1];
            }
        }).print("------");
        env.execute("test-dateStream");
    }
}

分组

Flink 分组的函数只有一个 keyBy(KeySelector) 。 这里给出一个计算 word count 的例子。


        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(10);
        env.setStreamTimeCharacteristic(TimeCharacteristic.ProcessingTime);
        env.socketTextStream("127.0.0.1", 6666)
                .flatMap(new RichFlatMapFunctio
<think>好的,我现在需要回答用户关于Flink算子使用说明和示例的问题。首先,我得回顾一下用户提供的引用内容,确保准确引用相关信息。用户提供了三个引用,分别是关于Flink的数据源算子、聚合算子和Transform算子的示例,特别是map操作。 首先,我应该按照用户的要求,结构清晰地分步骤说明。根据系统级指令,需要包括数据源算子、转换算子和数据汇算子,每个部分都要有代码示例,并且正确使用LaTeX格式。比如在解释转换算子时,提到的map、filter、keyBy、reduce等,要给出相应的Java或Scala代码示例。 然后,要确保每个引用的内容被正确引用到。例如,在数据源算子部分,引用[1]和[3]提到了构建环境和fromCollection的使用,应该在相关段落末尾添加[^1]和[^3]。聚合算子部分引用[2]中的内容,需要标注[^2]。 接下来,生成相关问题。问题需要围绕Flink算子的更多细节、最佳实践和应用场景展开,比如数据源算子的类型、转换算子的优化方法等。确保问题与用户提供的引用内容相关,并且能够引导进一步学习。 同时,检查LaTeX语法是否正确,比如行内公式用$...$,独立公式用$$...$$。不过在这个回答中可能数学公式不多,但如果有的话需要注意格式。例如,在解释窗口操作时,如果有时间窗口的表达式,需要用正确的格式。 另外,确保使用中文回答,避免任何Markdown格式,除了代码块需要用三个反引号包裹。代码示例需要根据引用中的内容提供,比如引用[3]中的Scala代码,可以展示map操作,而引用[2]中的聚合算子可以用Java示例。 最后,检查整体结构是否清晰,分为数据源、转换、数据汇三个部分,每个部分都有说明和示例,并且相关问题符合要求。同时,确保所有引用标识正确对应,如引用[1]、[2]、[3]分别在适当的位置标注。</think>### Flink算子使用说明及示例 Flink算子分为**数据源(Source)**、**转换(Transformation)**和**数据汇(Sink)**三类。以下结合示例说明其使用方法: --- #### 一、数据源算子(Source Operators) 数据源算子用于从外部系统(如文件、消息队列、集合等)读取数据。 **示例**:从集合构建数据源(Scala): ```scala val env = ExecutionEnvironment.getExecutionEnvironment val textDataSet: DataSet[String] = env.fromCollection( List("张三,1", "李四,2", "王五,3", "张三,4") ) // 从内存集合生成数据集[^3] ``` 其他常用数据源包括`readTextFile`(文件读取)、`fromElements`(元素集合)等。 --- #### 二、转换算子(Transformation Operators) 转换算子对数据进行处理,核心操作包括: 1. **`map`**:逐条处理数据 ```scala // 将字符串转换为元组(姓名,数值) val tupleData = textDataSet.map { str => val parts = str.split(",") (parts(0), parts(1).toInt) } // 输出如("张三",1) ``` 2. **`filter`**:过滤数据 ```java DataStream<String> filtered = dataStream.filter(value -> value.startsWith("A")); ``` 3. **`keyBy`**:按Key分组 ```java DataStream<Tuple2<String, Integer>> keyedStream = dataStream .keyBy(value -> value.f0); // 按元组第一个字段分组 ``` 4. **`reduce`**:聚合操作 ```java DataStream<Tuple2<String, Integer>> reduced = keyedStream .reduce((v1, v2) -> new Tuple2<>(v1.f0, v1.f1 + v2.f1)); // 对数值求和[^2] ``` 5. **`window`**:窗口计算 ```java dataStream.keyBy(value -> value.id) .window(TumblingEventTimeWindows.of(Time.seconds(10))) // 定义10秒滚动窗口 .sum("count"); // 按窗口统计总和 ``` --- #### 三、数据汇算子(Sink Operators) 数据汇负责将结果输出到外部系统,如文件、数据库或控制台。 **示例**:输出到文件(Java): ```java DataStream<String> result = ...; result.writeAsText("output/path"); // 写入文本文件 ``` ---
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值