
Flink大数据编程
文章平均质量分 96
CDHong.it
一切皆有可能
展开
-
第四章 Flink 窗口和水位线
在流式处理的过程中,数据是在不同的节点间不停流动的;这样一来,就会有网络传输的延迟,当上下游任务需要跨节点传输数据时,它们对于“时间”的理解也会有所不同。当基于特定时间段(通常称为Windows,窗口),或者当执行事件处理时,事件的时间发生很重要。原创 2023-01-20 13:31:51 · 4865 阅读 · 2 评论 -
第三章 Flink DataStream API
Flink 中的 DataStream 程序是对数据流(例如过滤、更新状态、定义窗口、聚合)进行转换的常规程序。数据流的起始是从各种源(例如消息队列、套接字流、文件)创建的。结果通过 sink 返回,例如可以将数据写入文件或标准输出(例如命令行终端)。Flink 程序可以在各种上下文中运行,可以独立运行,也可以嵌入到其它程序中。任务执行可以运行在本地 JVM 中,也可以运行在多台机器的集群上。DataStream API 得名于特殊的 DataStream 类,该类用于表示 Flink 程序中的数据原创 2023-01-07 12:10:47 · 1231 阅读 · 0 评论 -
第二章 Flink 环境部署
Apache Flink 本地环境部署和Standalone独立集群模式部署。原创 2023-01-04 22:28:09 · 2471 阅读 · 0 评论 -
第一章 Flink简介
流计算产品实时性有两个非常重要的实时性设计因素,一个是待计算的数据,一个是计算的时钟。低延时要求流计算框架尽可能早的输出计算结果,但是由于存在数据延时和现实业务数据更新的客观情况,就会导致你前一秒计算的结果,因为下一秒来了一个对上一秒已经参与计算的那条数据的更新,进而导致在下一秒时候上一秒的计算结果就是无效的了,那么流计算产品低延时需求导致流计算产品不可能无限制的等待延时数据的到来,这就一定会造成数据计算结果不精准的问题。原创 2023-01-04 21:46:04 · 878 阅读 · 2 评论