自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Leven Data Sharing

专注于分享数据仓库、Spark、Flink 等大数据领域的技术实践与探索,与数据领域的开发者和爱好者共同成长。

  • 博客(28)
  • 收藏
  • 关注

原创 Spark 性能优化(四):Cache

本文主要讲述了spark 性能调优时如何使用cache

2025-02-15 16:42:59 1257

原创 Spark 性能优化 (三):RBO 与 CBO

本文主要讲述了spark 中RBO 和CBO

2025-02-13 20:40:36 1572 2

原创 Spark 性能优化 (二):内存模型

本文主要讲述了spark 性能优化中的内存模型

2025-02-10 20:00:14 1619

原创 Flink (十七) :Table API & SQL (五) 时区

本文主要讲述了flink Table API & SQL 时区的使用方式

2025-02-09 12:55:23 460

原创 Flink (十六) :Table API & SQL (四) 时态表(Temporal Tables)

本文主要讲述了flink Table API & SQL 中的时态表和时态表函数的用法

2025-02-08 15:24:09 999

原创 Flink (十五) :Table API & SQL (三) 时间属性

本文主要讲述了flink Table API & SQL 如何定义处理时间和事件时间以及watermark

2025-02-07 22:31:54 1391

原创 spark 性能调优 (一):执行计划

本文主要讲述了spark 的执行计划

2025-02-06 14:21:37 1045

原创 Flink (十四) :Table API & SQL (二) 流式概念

本文主要讲述了flink table&SQL API 基本的流式概念

2025-02-05 15:05:55 893

原创 Flink (十三) :Table API 与 DataStream API 的转换 (一)

本文初步描述了table API 如何转成datastream API

2025-01-27 11:27:25 1682

原创 Flink (十二) :Table API & SQL (一) 概览

本文介绍 Table API 和 SQL 查询程序的通用结构、如何注册 Table 、如何查询 Table 以及如何输出 Table

2025-01-25 12:30:29 1745

原创 Flink(十一): DataStream API (八) Checkpointing

本文主要讲述了flink 中checkpoint 的实现原理,以及如何保证精确一次

2025-01-23 14:23:48 1797

原创 Flink(十):DataStream API (七) 状态

本文主要讲述了flink中的状态,包括keyedstate和operatorstat

2025-01-18 12:31:53 1759

原创 Flink (九):DataStream API (六) Process Function

本文主要介绍了flink 底层算则process function的使用

2025-01-17 14:27:27 1593

原创 Flink(八):DataStream API (五) Join

本文主要介绍了flink 的两种join的实现,一种是Window Join ,一种是Interval Join

2025-01-16 16:39:43 1480

原创 DAMA CDGA 备考笔记(二)

本文主要总结DAMA GDPA 考试中第二章数据处理伦理中的知识点和考点

2025-01-15 20:19:04 377

原创 Flink (七): DataStream API (四) Watermarks

本文介绍了 Flink 的时间语义和 Watermark 的实现。Flink 中两种时间:处理时间、事件时间。事件时间用于确保按事件实际发生的时间进行处理。Watermark 是跟踪事件时间进度的机制,用于标记流中的时间进展,算子接收到 Watermark 后更新事件时间并触发计算。

2025-01-15 19:48:22 1318

原创 DAMA CDGA 备考笔记 (一)

DAMA GDPA 第一章数据管理知识点及考点总结

2025-01-14 15:27:37 1191

原创 Flink (六):DataStream API (三) 窗口

本文详细介绍了窗口概念以及flink各种窗口的实现和应用,对想要全面了解flink窗口的同学非常有帮助

2025-01-14 14:10:19 1293

原创 Flink (五) :DataStream API (二)

Flink datastream API 基本算子介绍、旁路输出介绍、任务触发以及控制延迟

2025-01-13 17:52:13 1034

原创 Flink (四) : DataStream API (一)

Flink 中的 DataStream 程序是对数据流(例如过滤、更新状态、定义窗口、聚合)进行转换的常规程序。数据流的起始是从各种源(例如消息队列、套接字流、文件)创建的。结果通过 sink 返回,例如可以将数据写入文件或标准输出(例如命令行终端)。Flink 程序可以在各种上下文中运行,可以独立运行,也可以嵌入到其它程序中。任务执行可以运行在本地 JVM 中,也可以运行在多台机器的集群上。

2025-01-13 14:49:11 1090

原创 Flink (三):核心概念(并行度、算子链、任务槽)

本文主要讲述了flink中并行度和slot 两个概念,并阐述了两者之间的关系。同时讲述了并行度的几种设置方法。

2025-01-11 11:00:00 1256

原创 Flink (二) : 部署模式与运行模式

Flink 可以通过以下三种方式运行应用程序:Application 模式、Session 模式、Per-Job 模式(已废弃)上述模式在以下方面有所不同:1.集群生命周期和资源隔离的保障,2. 应用程序的 main() 方法是在客户端上执行还是在集群上执行

2025-01-10 11:39:42 1270

原创 Hudi(一): 概览

(Hadoop Upserts Deletes and Incrementals)是一个开源的大数据框架,主要用于处理大规模数据湖中的增量数据、数据更新和删除。Hudi 提供了一种高效的方式来处理数据流中的增量变化,特别适合需要更新、插入、删除操作的场景。它的核心理念是将传统的数据湖操作(如HDFS上的文件处理)与数据库的更新和增量数据处理能力结合起来,支持高效的写入、查询和管理大规模数据。Hudi 支持增量更新(upsert)操作,即在数据已存在的情况下,可以根据主键对已有数据进行更新。

2025-01-09 17:41:34 1757

原创 Flink (一) : 初识Flink

Flink 是一种开源的分布式计算框架,专为处理大规模数据流而设计。它能够在低延迟和高吞吐的场景下高效地处理实时和批量数据。

2025-01-09 10:45:11 1832

原创 一文读懂SparkSession 和SparkContext之间的关系

哈喽,大家好,我是Leven, 不知道大家在写spark 程序的时候,有没有发现SparkSession 和SparkContext 两个东西,但总是傻傻分不清楚这这这两者到底有什么关系,这里我就带大家简单了解这两个概念。

2025-01-08 15:56:43 507

原创 数据仓库(二):维度建模

哈喽,大家好,我是Leven, 在上一篇和大家普及了一些数据仓库中的基本概念,那么这篇文章我们详细说一说维度建模。我们先来聊一个 ER关系图,也就是实体-关系模型,我相信大家对这个都比较清楚,但有时候会存在一个误区,就是将实体-关系等价于范式建模,其实维度建模也是可以使用ER关系图,只是与范式建模的区别在于规范化的程度而已。所以不要将ER模型当成范式建模,它只是我们在建模中具体落实的一种建模方法。维度建模的过程中也是需要梳理实体与实体间的关系,请注意这一点。

2025-01-07 20:32:02 1035

原创 Spark(一):初识Spark

Spark专栏一:初识Spark, 帮助小伙伴们初步了解Spark。

2025-01-03 17:54:57 970

原创 数据仓库 (一): 概述

本文为数据仓库和大数据领域的初学者提供了一个全面的概览。同时也是我写数据仓库相关的第一篇文章,后续会持续更新这个系列的文章,帮助大家对数据仓库有更深的了解,也同时大家共同探讨数据仓库相关技术和知识。

2025-01-02 20:09:15 1364 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除