左美美￣　　-优快云博客

原创 Flink Taskmanager 内存模型详解

配套讲解视频：Flink TaskManager 内存模型详解_哔哩哔哩_bilibili

2024-10-22 10:04:35 403

原创 git clone报错：error invalid path ‘dorisdockerthirdpartiesdocker-composexxxx‘

在周日晚上，我尝试从GitHub上克隆Doris的代码库，以便进行学习。在使用IntelliJ IDEA进行克隆时，我遇到了一个Git错误。此问题源于文件路径在Windows操作系统上过长，超出了系统限制。完成配置后，重新克隆代码库。

2024-04-17 11:57:22 565

原创 MySQL到Doris的StreamingETL实现（Flink CDC 3.0）

将flink-cdc-pipeline-connector-doris-3.0.0.jar以及flink-cdc-pipeline-connector-mysql-3.0.0.jar防止在FlinkCDC的lib目录下。4）在MySQL的test_route数据中对应的几张表进行新增、修改数据操作，并刷新Doris中doris_test_route数据库观察结果。（7）在MySQL的test数据中对应的几张表进行新增、修改数据以及新增列操作，并刷新Doris中test数据库观察结果。

2024-04-17 09:15:08 1283 2

转载不可不说的Java“锁”事

Java提供了种类丰富的锁，每种锁因其特性的不同，在适当的场景下能够展现出非常高的效率。本文旨在对锁相关源码（本文中的源码来自JDK 8和Netty 3.10.6）、使用场景进行举例，为读者介绍主流锁的知识点，以及不同的锁的适用场景。Java中往往是按照是否含有某一特性来定义锁，我们通过特性将锁进行分组归类，再使用对比的方式进行介绍，帮助大家更快捷的理解相关知识。本文Java中常用的锁以及常见的锁的概念进行了基本介绍，并从源码以及实际应用的角度进行了对比分析。

2024-03-27 22:25:59 138 1

原创 hive 、spark 、flink之想一想

1：hive是怎么产生的？Hive是由Facebook开发的，目的是让拥有SQL知识的分析师能够在Hadoop上进行数据查询。Hive提供了类SQL的查询语言HiveQL，通过将HiveQL查询转换为MapReduce任务来在Hadoop上处理大规模数据。2：hive的框架是怎么样的？3：hive 执行流程是什么？4：hive sql是如何把sql语句一步一步到最后执行的？Hive SQL的执行过程主要包括解析、编译、优化、执行四个阶段。在解析阶段，Hive将SQL语句解析成抽象语法树；

2024-03-27 22:23:32 1613

原创如何实现10亿数据的高效判重？

例如，对于10亿数据，假设可接受的误判率为0.01%，则可以计算出所需的位数组大小和哈希函数个数。方法中，我们创建了一个布隆过滤器实例，添加了一个字符串 “hello”，然后检查 “hello” 和 “world” 是否存在于过滤器中。方法中，我们创建了一个布隆过滤器实例，添加了一个字符串 “hello”，然后检查 “hello” 和 “world” 是否存在于过滤器中。：使用确定的参数初始化布隆过滤器，创建一个足够大的位数组，并准备相应数量的哈希函数。是一个包含不同种子值的数组，用于生成不同的哈希函数。

2024-03-26 08:33:22 724

原创 Spark性能优化指南——高级篇

有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问题，以保证Spark作业的性能。

2024-03-11 11:48:07 1085

原创【成本价特惠】招募证书代理：工信部、PMP、阿里云、华为等认证，机会难得！

我们目前正在积极招募各类证书的代理，包括工信部的证书、PMP（项目管理专业人士）证书、阿里云证书、华为证书、OCP 证书、CFA 证书等。这些证书在业界内享有极高的声誉和认可度，不仅能提升个人职业素养，还能为企业增加专业技能和竞争力。

2024-01-20 22:13:53 601

原创大数据时代的黄金机遇：阿里云大数据分析师ACP认证【一条龙服务100%通过】

阿里云大数据分析师ACP认证是大数据领域的一项重要认证，无论是对于提升个人技能还是拓展职业道路都有着不可估量的价值。如果你有志于在这个充满潜力的行业中发展，那么这个认证无疑是你不容错过的选择。立刻行动，联系我开启你的大数据之旅吧！扫码和我联系。

2024-01-18 11:02:18 601

原创常见Linux命令

vi是Unix和类Unix操作系统中出现的通用的文本编辑器。vim是从vi发展出来的一个性能更强大的文本编辑器,可以主动的以字体颜色辨别语法的正确性,方便程序设计,vim和vi编辑器完全兼容。使用：vi xxx文件或者vim xxx文件,简单来说,就是用来编辑文件的一个工具,类似于我们再Windows上的一些文本编辑工具,只不过,这里是命令行形式的,不是图形用户界面形式的.接下来我们就准备一个文件,使用VIM对文件进行修改复制一个系统的配置文件到Root目录下，用以联系vim命令。

2024-01-17 15:04:41 1061

原创 Linux 入门概述

Linux，全称GNU/Linux，其内核由林纳斯·本纳第克特·托瓦兹在赫尔辛基大学上学时出于个人爱好而编写的操作系统内核,于1991年10月5日首次发布,它主要受到Minix和Unix思想的启发，是一套免费使用和自由传播的类Unix操作系统,它是一个基于POSIX的多用户、多任务、支持多线程和多CPU的操作系统。各不同版本Linux，都是基于相同的内核版本，只是用的内核版本可能有高有低，同时各厂家自己加了自己有特点的工具，还有某些文件位置不一样，不同版本的Linux相同度可以达90%

2024-01-17 14:47:29 923

原创 Apache DolphinScheduler 3.1.8 保姆级教程【安装、介绍、项目运用、邮箱预警设置】轻松拿捏！

Apache DolphinScheduler 是一个分布式易扩展的可视化 DAG 工作流任务调度开源系统。适用于企业级场景，提供了一个可视化操作任务、工作流和全生命周期数据处理过程的解决方案。

2024-01-17 09:04:37 1184

原创数仓面试之手写拉链表SQL，并分析有多少个job

维护历史状态，以及最新状态数据的一种表，拉链表根据拉链粒度的不同，实际上相当于快照，只不过做了优化，去除了一部分不变的记录而已,通过拉链表可以很方便的还原出拉链时点的客户记录。拉链表，记录每条信息的生命周期，一旦一条记录的生命周期结束，就重新开始一条新的记录，并把当前日期放入生效开始日期。如果当前信息至今有效，在生效结束日期中填入一个极大值 (如9999-99-99 )

2024-01-15 17:16:22 1293

原创【掌握关键】PMP一条龙考证攻略：揭秘100%通过的秘诀

引言：对于追求职业发展和项目管理卓越的专业人士而言，PMP认证无疑是一张宝贵的敲门砖。

2024-01-15 16:36:18 744

原创高效构建Java应用：Maven入门和进阶

核心点掌握目标安装maven安装、环境变量、maven配置文件修改工程创建gavp属性理解、JavaSE/EE工程创建、项目结构依赖管理依赖添加、依赖传递、版本提取、导入依赖错误解决构建管理构建过程、构建场景、构建周期等继承和聚合理解继承和聚合作用、继承语法和实践、聚合语法和实践。

2024-01-11 10:21:00 878

原创数仓建设指南

数据统计日期的分区字段按以下标准：。hh(00~23)。mi(00~59)。is_{业务}：表示布尔型数据字段。以Y和N表示，不允许出现空值域。原则上不需要冗余分区字段。

2024-01-11 09:58:33 1218

原创零基础教学文档之：docker

Docker是一个开源项目，诞生于2013年初，最初是dotCloud公司内部的一个业余项目。它基于Google公司推出的Go语言实现。项目后来加入了Linux基金会，遵从了Apache2.0协议，项目代码在GitHub上进行维护。Docker自开源后受到广范的关注和讨论，以至于dotCloud公司后来都改名为Docker Inc。RedHat已经在其RHEL6.5中集中支持Docker;Google也在其PaaS产品中广泛应用。Docker的目标是实现经量级的操作系统虚拟化解决方案。

2024-01-11 09:54:09 1090

原创数据治理指南

根据数据质量不满足完整性、准确性、一致性、及时性时，对业务的影响程度划分数据的资产等级。毁灭性质：数据一旦出错，将会引起重大资产损失，面临重大收益损失等。标记为A1。全局性质：数据直接或间接用于企业级业务、效果评估和重要决策等。标记为A2。局部性质：数据直接或间接用于某些业务线的运营、报告等，如果出现问题会给业务线造成一定的影响或造成工作效率降低。标记为A3。一般性质：数据主要用于日常数据分析，出现问题带来的影响极小。标记为A4。未知性质：无法明确数据的应用场景。标记为Ax。

2024-01-11 09:52:05 1158

原创 FlinkCEP - Flink的复杂事件处理

FlinkCEP是在Flink上层实现的复杂事件处理库。它可以让你在无限事件流中检测出特定的事件模型，有机会掌握数据中重要的那部分。本页讲述了Flink CEP中可用的API，我们首先讲述[模式API]，它可以让你指定想在数据流中检测的模式，然后讲述如何[检测匹配的事件序列并进行处理]。再然后我们讲述Flink在按照事件时间[处理迟到事件]时的假设，以及如何从旧版本的Flink向1.13之后的版本[迁移作业]。

2024-01-08 17:39:19 966

原创数据仓库研发规范

本文将介绍数据仓库研发规范的阶段规划、角色职责和整体流程。

2024-01-08 16:57:08 1474

原创 Flink-容错机制

Flink 作为一个大数据分布式流处理框架，必须要考虑系统的容错性，主要就是发生故障之后的恢复。Flink 容错机制的核心就是检查点，它通过巧妙的分布式快照算法保证了故障恢复后的一致性，并且尽可能地降低对处理性能的影响。本文中我们详细介绍了 Flink 检查点的原理、算法和配置，并且结合一致性理论与Flink-Kafka 的实际互连系统，阐述了如何用 Flink 实现流处理应用的端到端exactly-once 状态一致性。这既是 Flink 底层原理的深入，也与之前的状态管理、水位线机制有联系和相通之处。

2024-01-08 16:48:59 1433

zuo1057559550的博客

原创 Flink Taskmanager 内存模型详解

原创 git clone报错：error invalid path ‘dorisdockerthirdpartiesdocker-composexxxx‘

原创 MySQL到Doris的StreamingETL实现（Flink CDC 3.0）

转载不可不说的Java“锁”事

原创 hive 、spark 、flink之想一想

原创如何实现10亿数据的高效判重？

原创 Spark性能优化指南——高级篇

原创【成本价特惠】招募证书代理：工信部、PMP、阿里云、华为等认证，机会难得！

原创大数据时代的黄金机遇：阿里云大数据分析师ACP认证【一条龙服务100%通过】

原创常见Linux命令

原创 Linux 入门概述

原创 Apache DolphinScheduler 3.1.8 保姆级教程【安装、介绍、项目运用、邮箱预警设置】轻松拿捏！

原创数仓面试之手写拉链表SQL，并分析有多少个job

原创【掌握关键】PMP一条龙考证攻略：揭秘100%通过的秘诀

原创高效构建Java应用：Maven入门和进阶

原创数仓建设指南

原创零基础教学文档之：docker

原创数据治理指南

原创 FlinkCEP - Flink的复杂事件处理

原创数据仓库研发规范

原创 Flink-容错机制

原创还有人不知道 Java 8 Stream流底层原理？

原创最全的Apache Doris教程（收藏版）共9万+字【第一篇】由于是typora编写，有部分图片在本地，识别不出来，请细聊我

原创 15000字，详解基于OneData方法论构建数据仓库

原创 hive常用函数大全

原创【大数据技术】爆肝3天 7个章节 Hive 3.1.3详解

原创【Flink专题】-基于Flink 1.12 整理的第4篇 Flink-Table&SQL

原创【Flink专题】-高级API知识点整理

翻译【ETL工具】-Kettle详细教程

原创【Fink专题】基于Flink1.12的一些知识点分享-第二篇

转载【kafka】使用本地代码作为生产者发送消息，但是在服务器中消费者接收不到信息

原创【Flink专题】基于Flink1.12的知识点总结

原创【2022】安装神通数据库及DataGrip连接

空空如也

空空如也