Transformation自带DataSet算子
- Map:输入一个元素,然后返回一个元素,中间可以进行清洗转换等操作。
- FlatMap :输入一个元素,可以返回零个、一个或者多个元素。
- Filter :过滤函数,对传入的数据进行判断,符合条件的数据会被留下。
- KeyBy :根据指定的Key进行分组,Key相同的数据会进入同一个分区。
KeyBy的两种典型用法
- DataStream.keyBy("someKey")指定对象中的someKey段作为分组Key。
- DataStream.keyBy(0)指定Tuple中的第一个元素作为分组Key。
- Reduce :对数据进行聚合操作,结合当前元素和上一次Reduce返回的值进行聚 合操作,然后返回一个新的值。
- Aggregations : sum()、min()、max()等。
-
Distinct:返回数据集去重之后的元素。
-
Join :内 连接。
-
OuterJoin: 链接
-
Cross :获取两个数据集的笛卡尔积。
本文详细介绍了Flink中的Transformation算子,包括Map、FlatMap、Filter、KeyBy、Reduce、Aggregations、Distinct、Join、OuterJoin、Cross、Union和Connect等,并探讨了如何自定义Transformation转换函数,帮助开发者更好地理解和运用Flink数据处理。
订阅专栏 解锁全文
541

被折叠的 条评论
为什么被折叠?



