大数据_Flink_Java版_数据处理_Watermark(7)_的设定原则---Flink工作笔记0056

本文探讨了Flink中Watermark的设定原则,强调了延迟时间对结果速度和准确性的影响。建议根据业务需求和实际情况进行测试,或者利用模型得出合适延迟。对于有序和无序数据,分别推荐使用升序和周期性Watermark,并讨论了不同情况下的适用性。此外,还提到了Flink的默认配置和如何自定义Watermark间隔。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

这里我们再说,waterMark设定的那个延迟的时间,设置多少合适呢?

对于有序的数据我们直接可以用升序的waterMark对于乱序的不行.

因为waterMark是整个flink中数据流动的时间,所以如果设置的延迟时间太长那么就会,收到结果的速度就很慢,如果,设置的延迟时间太短,那么就有可能得不到正确的结果,之前我们已经分析过了.

那么要设置多少合适呢?

首先应该对业务有所了解,心里大概有数,延迟是多少,还可以怎么做?

可以去测试一下实际的情况对吧,测一下设置多少合适,

还可以用机器学习,利用一个模型,来得到,一个正态分布

可以看到上图如果,你得到上的一个正太分布,50ms的延迟时间这个时候,丢掉的数据最多,到80ms的

时候丢的就挺少了,这个时候你可以设置延迟时间是80ms就可以了,这样大部分的数据就都不会丢,就可以保证大部分结果是正确的,如果,你的业务要求非常,精确,那么你可以在做waterMark的基础上,

再给时间窗口,加一个延迟时间,比如1s,这个时候几乎就没有丢的了,可以保证结果精确,但是</

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

添柴程序猿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值