慕青Voyager-优快云博客

原创【Flink】容错机制

作用：保证故障后的恢复。最重要的是检查点。

2023-08-29 09:38:04 312

原创【Flink】状态管理

算子任务分为有状态和无状态两种。

2023-08-29 07:50:10 222 1

原创【Flink】处理函数的实现

在本部分中，针对自定义处理逻辑，通过“处理函数”接口，实现对转换算子的概括性表达。

2023-08-28 12:32:37 141

Flink 水位线时间语义事件时间：数据产生的时间处理时间：数据真正被处理的时刻一般情况下，业务日志数据中都会记录数据生成的时间戳(timestamp)，它就可以作为事件时间的判断基础。Flink 将事件时间作为默认的时间语义。事件时间和窗口逻辑时钟：事件进展靠着数据记录的时间戳来推动，使计算过程完全不依赖处理时间（系统时间）水位线用来衡量事件时间进展的标记。有序流中的水位线理想状态下希望数据按生成顺序进入流中，每条数据产生一个水位线。在实际中，由于数据量非常大，为提高效率，每隔一段

2023-08-28 08:17:49 243

原创【Flink】窗口的机制及相关实验

Flink作为流计算引擎，主要用来处理无界数据流。数据源源不断、无穷无尽。通过将无限数据切割成有限的“数据块”进行处理，就有“窗口”的概念。在Flink中，窗口可以把流切割成有限大小的多个“存储桶”，每个数据都会分发的对应的桶中。当到达窗口结束时间时，就会对每个桶中收集数据进行计算处理。窗口不是静态准备好的，是动态创建的——有数据到达时才会创建对应窗口。窗口结束时间时，窗口会触发计算并关闭。

2023-08-27 17:02:53 545

原创【Flink】算子总结

【代码】【Flink】算子总结。

2023-08-27 10:27:34 252

原创【Flink】集群与部署

Flink中每一个TaskManager都是一个JVM进程，它可以启动多个独立的线程执行多个子任务。TaskManager包含了一定数量的Slots，Slot是资源调度的最小单位，Slot数量限制了TaskManager能够并行处理的任务数量。整个流处理程序的并行度是所有算子并行度最大的那个，这代表了应用程序需要的slot数量。只要属于同一作业，对不同任务节点（算子）的并行子任务，就可以放到同一个slot上执行。是Flink集群中任务管理和调度的核心，是控制应用执行的主进程。

2023-08-27 08:02:00 160

原创【Spark】Spark MLlib 相关操作记录

MLlib 由一些通用的学习算法和工具组成，包括分类、回归、聚类、协同过滤、降维等。

2023-08-22 19:43:29 219 1

原创【Spark】 Spark Streaming的状态转换与输出

对每个分段的DStream数据的处理就是对DStream的转换操作。

2023-08-21 14:05:44 353 1

原创【Kafka】消息的产生与消费

Kafka是一种高吞吐量的分布式发布订阅消息系统。相关概念：Broker：Kafka集群上的服务器Topic：发布到集群上的消息类别Partition：物理上的分区Producer：负责发布消息到集群Consumer：消息消费者。

2023-08-21 09:46:52 200 1

原创【Spark】Spark Streaming 流计算

静态数据在企业中是用于支持决策分析构建数据仓库系统的历史数据，数据使用ETL加载到数据仓库中，且不会发生更新。流数据指的是时间分布和数量上无限的一系列动态数据集合体，数据记录是流数据的最小单元。特征如下：数据快速持续到达，潜在大小也许是无穷无尽的。数据来源多，格式复杂。数据量大，但不关注存储。=> 流数据某个元素经过处理要么被丢弃要么归档存储。关注整体价值而非个别数据。系统无法控制到达数据元素的顺序。批量计算：以静态数据为对象，在充裕时间内对海量数据批量处理。

2023-08-20 13:55:48 425 1