Flink学习札记3——2020.2.27新一代大数据计算引擎 Flink从入门到实战

本文介绍Apache Flink的数据集API编程,涵盖数据源(Source)、转换(Transformations)和目标(Sink)的基本概念。深入探讨了如何在Flink中使用数据源,包括实现SourceFunction、ParallelSourceFunction和RichParallelSourceFunction接口的方法。同时,提供了自定义Sink的总结,包括重写open/close生命周期方法及invoke方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

DataSet API编程
DataSet API开发概述
       Data Source
       Transformation
       Sink

 

Source:源/源头
       reading files
       local collections


       Source ==> Flink(transformations)==> Sink


Sink:目的地
       distributed)files
       standard output 

 

转换/算子
       scala 

 

基于flink编程的计数器开发三步曲

      step1:定义计数器
      step2:注册计数器
      step3:获取计数器

 

Flink中使用数据源
     StreamExecutionEnvironment.addSource(sourceFunction)
           implementing the SourceFunction for non-parallel sources
           implementing the ParallelSourceFunction interface
           extending the RichParallelSourceFunction for parallel sources.

  SourceFunction
  ParallelSourceFunction
  RichParallelSourceFunction
  之间的关系

 

自定义Sink总结
1)RichSinkFunction<T> T就是你想要写入对象的类型
2)重写方法
      open/close 生命周期方法
      invoke 每条记录执行一次

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值