目录
2.1 通过设置 kafka topic 的 partition =1 来处理延迟的乱序数据
2.3 利用数据湖表格格式处理(如 apche hudi、paimon)
一、关于延迟的一些概念
1、什么是延迟?
延迟是数据从网络上的一个点传递到另一个点所需的时间。假设北京的服务器 A 向成都的服务器 B 发送一个数据包。服务器 A 在格林威治标准时间 10:20:00.000 发送数据包,服务器 B 在格林威治标准时间 10:20:00.125 接收数据包。此路径上的延迟量是这两个时间之间的差值:0.125 秒或 125 毫秒。
大多数情况下,延迟是在用户设备(“客户端”设备)和数据中心之间测量的。该测量值可帮助开发人员了解网页或应用程序为用户加载的速度。
尽管 Internet 上的数据以光速传播,但由于 Internet 基础设施设备造成的距离和延迟的影响,延迟永远无法完全消除。但延迟可以并且应该最小化。大量的延迟会导致网站性能下降, 对 SEO 【“Search Engine Optimization”(搜索引擎优化)】产生负面影响 ,并可能导致用户完全离开网站或应用程序。

本文探讨了互联网延迟的概念、原因及减少延迟的方法,并重点介绍了Flink如何处理延迟数据,包括设置Kafka topic分区、业务有序策略以及利用数据湖表格格式如Apache Hudi来解决乱序数据。
订阅专栏 解锁全文
952

被折叠的 条评论
为什么被折叠?



