flink从入门到放弃
文章平均质量分 75
记录flink学习历程的点点滴滴
苍老流年
对未来的不确定与焦虑保持独立的判断与认知
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
1. Flink自定义Source
DataStream是Flink的低级API,用于进行数据的实时处理,Flink编程模型分为Source、Transformation、Sink三个部分,如下图所示。基于文件的Source基于Socket的Source基于集合的Source基于Kafka消息队列的Source当以上内置Source不能满足业务需要时,可以实现自定义Source。:单并行度Source的基类:单并行度增强型Source的基类:多并行度Source的基类:多并行度增强型Source的基类。原创 2024-12-11 16:04:16 · 1225 阅读 · 0 评论 -
2. Flink分区策略
Flink任务在执行过程中,一个流(stream)包含一个或多个分区(Stream partition),TaskManager中的一个slot的SubTask就是一个stream partition(流分区)。Flink分区之间进行数据传递模式有两种。1. one-to-one模式数据不需要重新分布,上游SubTask生产的数据与下游SubTask收到的数据完全一致,常见的map,filter等算子的SubTask的数据传递都是one-to-one的对应关系,类似于spark中的窄依赖。原创 2025-01-20 22:31:33 · 1251 阅读 · 0 评论 -
3. Flink 窗口
窗口是处理无限流的核心。ProcessWindowFunction获得一个包含窗口所有元素的Iterable,以及一个可以访问时间和状态信息的Context对象,这使得它比其他窗口函数提供更大的灵活性。窗口按照驱动类型可以分成时间窗口和计数窗口,而按照具体的分配规则,又有滚动窗口、滑动窗口、会话窗口、全局窗口四种。窗口函数定义了要对窗口中收集的数据做的计算操作,根据处理的方式可以分为两类:增量聚合函数和全窗口函数。计数窗口很好理解,当窗口的数据量达到了设定的窗口大小时,窗口函数就会被触发。原创 2025-01-15 11:41:38 · 1335 阅读 · 0 评论 -
4. Flink SQL访问HiveCatalog
2.修改Hive配置文件hive-site.xml。1.上传所需的jar包到Flink lib目录下。3.启动Hive外置metastore。2.Flink创建Catalog并使用。3.Flink SQL访问Hive表。3.启动Flink SQL客户端。1.Hive创建测试表并插入数据。原创 2025-03-30 19:58:51 · 579 阅读 · 0 评论
分享