大数据分析篇之Flink

本文深入探讨了大数据分析工具Flink的核心特性,包括其架构、一次语义保证、FlatMap操作、watermarker机制、SourceSink、状态管理、StateBackend、Checkpoint策略以及与Spark的区别。同时,提到了Kafka的使用,并讨论了Flink在处理延时和优化方面的挑战。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一. 简介

Flink 是一个状态流, 一个任务就是一个集群

二. 核心

1. Flink架构

2. 特性

2.1 有界和无界数据
有界:批处理(离线处理)
无界:实时处理

2.2 一次语义
一次语义保证得是什么?

3. FlatMap

RichFlatMapFunction
FlatMapFunction
RichColFlatMapRunction
CoFlatMapFunction ‘

4. RDD

connect

5. watermarker(sparkstreaming 没有)

使用watermark机制解决无序问题

timewindow
event time
process time
ingression time

watermarker + windows
迟到太多的事件的处理机制(比较忌讳的是丢数据)
收集丢弃的数据
并行WaterMa

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Freedom3568

技术域不存在英雄主义,不进则退

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值