LevenBigData-优快云博客

Flink 中的 DataStream 程序是对数据流（例如过滤、更新状态、定义窗口、聚合）进行转换的常规程序。数据流的起始是从各种源（例如消息队列、套接字流、文件）创建的。结果通过 sink 返回，例如可以将数据写入文件或标准输出（例如命令行终端）。Flink 程序可以在各种上下文中运行，可以独立运行，也可以嵌入到其它程序中。任务执行可以运行在本地 JVM 中，也可以运行在多台机器的集群上。

2025-01-13 14:49:11 1090

原创 Flink (三)：核心概念（并行度、算子链、任务槽）

本文主要讲述了flink中并行度和slot 两个概念，并阐述了两者之间的关系。同时讲述了并行度的几种设置方法。

2025-01-11 11:00:00 1256

原创 Flink (二) ：部署模式与运行模式

Flink 可以通过以下三种方式运行应用程序：Application 模式、Session 模式、Per-Job 模式（已废弃）上述模式在以下方面有所不同：1.集群生命周期和资源隔离的保障，2. 应用程序的 main() 方法是在客户端上执行还是在集群上执行

2025-01-10 11:39:42 1270

（Hadoop Upserts Deletes and Incrementals）是一个开源的大数据框架，主要用于处理大规模数据湖中的增量数据、数据更新和删除。Hudi 提供了一种高效的方式来处理数据流中的增量变化，特别适合需要更新、插入、删除操作的场景。它的核心理念是将传统的数据湖操作（如HDFS上的文件处理）与数据库的更新和增量数据处理能力结合起来，支持高效的写入、查询和管理大规模数据。Hudi 支持增量更新（upsert）操作，即在数据已存在的情况下，可以根据主键对已有数据进行更新。

2025-01-09 17:41:34 1757

原创 Flink (一) ：初识Flink

Flink 是一种开源的分布式计算框架，专为处理大规模数据流而设计。它能够在低延迟和高吞吐的场景下高效地处理实时和批量数据。

2025-01-09 10:45:11 1832

原创一文读懂SparkSession 和SparkContext之间的关系

哈喽，大家好，我是Leven, 不知道大家在写spark 程序的时候，有没有发现SparkSession 和SparkContext 两个东西，但总是傻傻分不清楚这这这两者到底有什么关系，这里我就带大家简单了解这两个概念。

2025-01-08 15:56:43 507

原创数据仓库（二）：维度建模

哈喽，大家好，我是Leven, 在上一篇和大家普及了一些数据仓库中的基本概念，那么这篇文章我们详细说一说维度建模。我们先来聊一个 ER关系图，也就是实体-关系模型，我相信大家对这个都比较清楚，但有时候会存在一个误区，就是将实体-关系等价于范式建模，其实维度建模也是可以使用ER关系图，只是与范式建模的区别在于规范化的程度而已。所以不要将ER模型当成范式建模，它只是我们在建模中具体落实的一种建模方法。维度建模的过程中也是需要梳理实体与实体间的关系，请注意这一点。

2025-01-07 20:32:02 1035

原创 Spark（一）：初识Spark

Spark专栏一：初识Spark, 帮助小伙伴们初步了解Spark。

2025-01-03 17:54:57 970

原创数据仓库（一）：概述

本文为数据仓库和大数据领域的初学者提供了一个全面的概览。同时也是我写数据仓库相关的第一篇文章，后续会持续更新这个系列的文章，帮助大家对数据仓库有更深的了解，也同时大家共同探讨数据仓库相关技术和知识。

2025-01-02 20:09:15 1364 1

Leven Data Sharing

原创 Spark 性能优化（四）：Cache

原创 Spark 性能优化（三）：RBO 与 CBO

原创 Spark 性能优化（二）：内存模型

原创 Flink (十七) ：Table API & SQL (五) 时区

原创 Flink (十六) ：Table API & SQL (四) 时态表（Temporal Tables）

原创 Flink (十五) ：Table API & SQL (三) 时间属性

原创 spark 性能调优（一）：执行计划

原创 Flink (十四) ：Table API & SQL (二) 流式概念

原创 Flink (十三) ：Table API 与 DataStream API 的转换（一）

原创 Flink (十二) ：Table API & SQL (一) 概览

原创 Flink（十一）： DataStream API (八) Checkpointing

原创 Flink（十）：DataStream API (七) 状态

原创 Flink (九)：DataStream API (六) Process Function

原创 Flink（八）：DataStream API (五) Join

原创 DAMA CDGA 备考笔记（二）

原创 Flink (七): DataStream API (四) Watermarks

原创 DAMA CDGA 备考笔记（一）

原创 Flink (六)：DataStream API (三) 窗口

原创 Flink (五) ：DataStream API （二）

原创 Flink (四) ： DataStream API （一）