- 博客(28)
- 收藏
- 关注
原创 Flink (十六) :Table API & SQL (四) 时态表(Temporal Tables)
本文主要讲述了flink Table API & SQL 中的时态表和时态表函数的用法
2025-02-08 15:24:09
999
原创 Flink (十五) :Table API & SQL (三) 时间属性
本文主要讲述了flink Table API & SQL 如何定义处理时间和事件时间以及watermark
2025-02-07 22:31:54
1391
原创 Flink (十三) :Table API 与 DataStream API 的转换 (一)
本文初步描述了table API 如何转成datastream API
2025-01-27 11:27:25
1682
原创 Flink (十二) :Table API & SQL (一) 概览
本文介绍 Table API 和 SQL 查询程序的通用结构、如何注册 Table 、如何查询 Table 以及如何输出 Table
2025-01-25 12:30:29
1745
原创 Flink(十一): DataStream API (八) Checkpointing
本文主要讲述了flink 中checkpoint 的实现原理,以及如何保证精确一次
2025-01-23 14:23:48
1797
原创 Flink(十):DataStream API (七) 状态
本文主要讲述了flink中的状态,包括keyedstate和operatorstat
2025-01-18 12:31:53
1759
原创 Flink (九):DataStream API (六) Process Function
本文主要介绍了flink 底层算则process function的使用
2025-01-17 14:27:27
1593
原创 Flink(八):DataStream API (五) Join
本文主要介绍了flink 的两种join的实现,一种是Window Join ,一种是Interval Join
2025-01-16 16:39:43
1480
原创 Flink (七): DataStream API (四) Watermarks
本文介绍了 Flink 的时间语义和 Watermark 的实现。Flink 中两种时间:处理时间、事件时间。事件时间用于确保按事件实际发生的时间进行处理。Watermark 是跟踪事件时间进度的机制,用于标记流中的时间进展,算子接收到 Watermark 后更新事件时间并触发计算。
2025-01-15 19:48:22
1318
原创 Flink (六):DataStream API (三) 窗口
本文详细介绍了窗口概念以及flink各种窗口的实现和应用,对想要全面了解flink窗口的同学非常有帮助
2025-01-14 14:10:19
1293
原创 Flink (五) :DataStream API (二)
Flink datastream API 基本算子介绍、旁路输出介绍、任务触发以及控制延迟
2025-01-13 17:52:13
1034
原创 Flink (四) : DataStream API (一)
Flink 中的 DataStream 程序是对数据流(例如过滤、更新状态、定义窗口、聚合)进行转换的常规程序。数据流的起始是从各种源(例如消息队列、套接字流、文件)创建的。结果通过 sink 返回,例如可以将数据写入文件或标准输出(例如命令行终端)。Flink 程序可以在各种上下文中运行,可以独立运行,也可以嵌入到其它程序中。任务执行可以运行在本地 JVM 中,也可以运行在多台机器的集群上。
2025-01-13 14:49:11
1090
原创 Flink (三):核心概念(并行度、算子链、任务槽)
本文主要讲述了flink中并行度和slot 两个概念,并阐述了两者之间的关系。同时讲述了并行度的几种设置方法。
2025-01-11 11:00:00
1256
原创 Flink (二) : 部署模式与运行模式
Flink 可以通过以下三种方式运行应用程序:Application 模式、Session 模式、Per-Job 模式(已废弃)上述模式在以下方面有所不同:1.集群生命周期和资源隔离的保障,2. 应用程序的 main() 方法是在客户端上执行还是在集群上执行
2025-01-10 11:39:42
1270
原创 Hudi(一): 概览
(Hadoop Upserts Deletes and Incrementals)是一个开源的大数据框架,主要用于处理大规模数据湖中的增量数据、数据更新和删除。Hudi 提供了一种高效的方式来处理数据流中的增量变化,特别适合需要更新、插入、删除操作的场景。它的核心理念是将传统的数据湖操作(如HDFS上的文件处理)与数据库的更新和增量数据处理能力结合起来,支持高效的写入、查询和管理大规模数据。Hudi 支持增量更新(upsert)操作,即在数据已存在的情况下,可以根据主键对已有数据进行更新。
2025-01-09 17:41:34
1757
原创 Flink (一) : 初识Flink
Flink 是一种开源的分布式计算框架,专为处理大规模数据流而设计。它能够在低延迟和高吞吐的场景下高效地处理实时和批量数据。
2025-01-09 10:45:11
1832
原创 一文读懂SparkSession 和SparkContext之间的关系
哈喽,大家好,我是Leven, 不知道大家在写spark 程序的时候,有没有发现SparkSession 和SparkContext 两个东西,但总是傻傻分不清楚这这这两者到底有什么关系,这里我就带大家简单了解这两个概念。
2025-01-08 15:56:43
507
原创 数据仓库(二):维度建模
哈喽,大家好,我是Leven, 在上一篇和大家普及了一些数据仓库中的基本概念,那么这篇文章我们详细说一说维度建模。我们先来聊一个 ER关系图,也就是实体-关系模型,我相信大家对这个都比较清楚,但有时候会存在一个误区,就是将实体-关系等价于范式建模,其实维度建模也是可以使用ER关系图,只是与范式建模的区别在于规范化的程度而已。所以不要将ER模型当成范式建模,它只是我们在建模中具体落实的一种建模方法。维度建模的过程中也是需要梳理实体与实体间的关系,请注意这一点。
2025-01-07 20:32:02
1035
原创 数据仓库 (一): 概述
本文为数据仓库和大数据领域的初学者提供了一个全面的概览。同时也是我写数据仓库相关的第一篇文章,后续会持续更新这个系列的文章,帮助大家对数据仓库有更深的了解,也同时大家共同探讨数据仓库相关技术和知识。
2025-01-02 20:09:15
1364
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人