- 博客(33)
- 收藏
- 关注
原创 git clone报错:error invalid path ‘dorisdockerthirdpartiesdocker-composexxxx‘
在周日晚上,我尝试从GitHub上克隆Doris的代码库,以便进行学习。在使用IntelliJ IDEA进行克隆时,我遇到了一个Git错误。此问题源于文件路径在Windows操作系统上过长,超出了系统限制。完成配置后,重新克隆代码库。
2024-04-17 11:57:22
565
原创 MySQL到Doris的StreamingETL实现(Flink CDC 3.0)
将flink-cdc-pipeline-connector-doris-3.0.0.jar以及flink-cdc-pipeline-connector-mysql-3.0.0.jar防止在FlinkCDC的lib目录下。4)在MySQL的test_route数据中对应的几张表进行新增、修改数据操作,并刷新Doris中doris_test_route数据库观察结果。(7)在MySQL的test数据中对应的几张表进行新增、修改数据以及新增列操作,并刷新Doris中test数据库观察结果。
2024-04-17 09:15:08
1283
2
转载 不可不说的Java“锁”事
Java提供了种类丰富的锁,每种锁因其特性的不同,在适当的场景下能够展现出非常高的效率。本文旨在对锁相关源码(本文中的源码来自JDK 8和Netty 3.10.6)、使用场景进行举例,为读者介绍主流锁的知识点,以及不同的锁的适用场景。Java中往往是按照是否含有某一特性来定义锁,我们通过特性将锁进行分组归类,再使用对比的方式进行介绍,帮助大家更快捷的理解相关知识。本文Java中常用的锁以及常见的锁的概念进行了基本介绍,并从源码以及实际应用的角度进行了对比分析。
2024-03-27 22:25:59
138
1
原创 hive 、spark 、flink之想一想
1:hive是怎么产生的?Hive是由Facebook开发的,目的是让拥有SQL知识的分析师能够在Hadoop上进行数据查询。Hive提供了类SQL的查询语言HiveQL,通过将HiveQL查询转换为MapReduce任务来在Hadoop上处理大规模数据。2:hive的框架是怎么样的?3:hive 执行流程是什么?4:hive sql是如何把sql语句一步一步到最后执行的?Hive SQL的执行过程主要包括解析、编译、优化、执行四个阶段。在解析阶段,Hive将SQL语句解析成抽象语法树;
2024-03-27 22:23:32
1613
原创 如何实现10亿数据的高效判重?
例如,对于10亿数据,假设可接受的误判率为0.01%,则可以计算出所需的位数组大小和哈希函数个数。方法中,我们创建了一个布隆过滤器实例,添加了一个字符串 “hello”,然后检查 “hello” 和 “world” 是否存在于过滤器中。方法中,我们创建了一个布隆过滤器实例,添加了一个字符串 “hello”,然后检查 “hello” 和 “world” 是否存在于过滤器中。:使用确定的参数初始化布隆过滤器,创建一个足够大的位数组,并准备相应数量的哈希函数。是一个包含不同种子值的数组,用于生成不同的哈希函数。
2024-03-26 08:33:22
724
原创 Spark性能优化指南——高级篇
有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。
2024-03-11 11:48:07
1085
原创 【成本价特惠】招募证书代理:工信部、PMP、阿里云、华为等认证,机会难得!
我们目前正在积极招募各类证书的代理,包括工信部的证书、PMP(项目管理专业人士)证书、阿里云证书、华为证书、OCP 证书、CFA 证书等。这些证书在业界内享有极高的声誉和认可度,不仅能提升个人职业素养,还能为企业增加专业技能和竞争力。
2024-01-20 22:13:53
601
原创 大数据时代的黄金机遇:阿里云大数据分析师ACP认证【一条龙服务100%通过】
阿里云大数据分析师ACP认证是大数据领域的一项重要认证,无论是对于提升个人技能还是拓展职业道路都有着不可估量的价值。如果你有志于在这个充满潜力的行业中发展,那么这个认证无疑是你不容错过的选择。立刻行动,联系我开启你的大数据之旅吧!扫码和我联系。
2024-01-18 11:02:18
601
原创 常见Linux命令
vi是Unix和类Unix操作系统中出现的通用的文本编辑器。vim是从vi发展出来的一个性能更强大的文本编辑器,可以主动的以字体颜色辨别语法的正确性,方便程序设计,vim和vi编辑器完全兼容。使用:vi xxx文件 或者vim xxx文件,简单来说,就是用来编辑文件的一个工具,类似于我们再Windows上的一些文本编辑工具,只不过,这里是命令行形式的,不是图形用户界面形式的.接下来我们就准备一个文件,使用VIM对文件进行修改复制一个系统的配置文件到Root目录下,用以联系vim命令。
2024-01-17 15:04:41
1061
原创 Linux 入门概述
Linux,全称GNU/Linux,其内核由林纳斯·本纳第克特·托瓦兹在赫尔辛基大学上学时出于个人爱好而编写的操作系统内核,于1991年10月5日首次发布,它主要受到Minix和Unix思想的启发,是一套免费使用和自由传播的类Unix操作系统,它是一个基于POSIX的多用户、多任务、支持多线程和多CPU的操作系统。各不同版本Linux,都是基于相同的内核版本,只是用的内核版本可能有高有低,同时各厂家自己加了自己有特点的工具,还有某些文件位置不一样,不同版本的Linux相同度可以达90%
2024-01-17 14:47:29
923
原创 Apache DolphinScheduler 3.1.8 保姆级教程【安装、介绍、项目运用、邮箱预警设置】轻松拿捏!
Apache DolphinScheduler 是一个分布式易扩展的可视化 DAG 工作流任务调度开源系统。适用于企业级场景,提供了一个可视化操作任务、工作流和全生命周期数据处理过程的解决方案。
2024-01-17 09:04:37
1184
原创 数仓面试之手写拉链表SQL,并分析有多少个job
维护历史状态,以及最新状态数据的一种表,拉链表根据拉链粒度的不同,实际上相当于快照,只不过做了优化,去除了一部分不变的记录而已,通过拉链表可以很方便的还原出拉链时点的客户记录。拉链表,记录每条信息的生命周期,一旦一条记录的生命周期结束,就重新开始一条新的记录,并把当前日期放入生效开始日期。如果当前信息至今有效,在生效结束日期中填入一个极大值 (如9999-99-99 )
2024-01-15 17:16:22
1293
原创 高效构建Java应用:Maven入门和进阶
核心点掌握目标安装maven安装、环境变量、maven配置文件修改工程创建gavp属性理解、JavaSE/EE工程创建、项目结构依赖管理依赖添加、依赖传递、版本提取、导入依赖错误解决构建管理构建过程、构建场景、构建周期等继承和聚合理解继承和聚合作用、继承语法和实践、聚合语法和实践。
2024-01-11 10:21:00
878
原创 数仓建设指南
数据统计日期的分区字段按以下标准:。hh(00~23)。mi(00~59)。is_{业务}:表示布尔型数据字段。以Y和N表示,不允许出现空值域。原则上不需要冗余分区字段。
2024-01-11 09:58:33
1218
原创 零基础教学文档之:docker
Docker是一个开源项目,诞生于2013年初,最初是dotCloud公司内部的一个业余项目。它基于Google公司推出的Go语言实现。项目后来加入了Linux基金会,遵从了Apache2.0协议,项目代码在GitHub上进行维护。Docker自开源后受到广范的关注和讨论,以至于dotCloud公司后来都改名为Docker Inc。RedHat已经在其RHEL6.5中集中支持Docker;Google也在其PaaS产品中广泛应用。Docker的目标是实现经量级的操作系统虚拟化解决方案。
2024-01-11 09:54:09
1090
原创 数据治理指南
根据数据质量不满足完整性、准确性、一致性、及时性时,对业务的影响程度划分数据的资产等级。毁灭性质:数据一旦出错,将会引起重大资产损失,面临重大收益损失等。标记为A1。全局性质:数据直接或间接用于企业级业务、效果评估和重要决策等。标记为A2。局部性质:数据直接或间接用于某些业务线的运营、报告等,如果出现问题会给业务线造成一定的影响或造成工作效率降低。标记为A3。一般性质:数据主要用于日常数据分析,出现问题带来的影响极小。标记为A4。未知性质:无法明确数据的应用场景。标记为Ax。
2024-01-11 09:52:05
1158
原创 FlinkCEP - Flink的复杂事件处理
FlinkCEP是在Flink上层实现的复杂事件处理库。它可以让你在无限事件流中检测出特定的事件模型,有机会掌握数据中重要的那部分。本页讲述了Flink CEP中可用的API,我们首先讲述[模式API],它可以让你指定想在数据流中检测的模式,然后讲述如何[检测匹配的事件序列并进行处理]。再然后我们讲述Flink在按照事件时间[处理迟到事件]时的假设, 以及如何从旧版本的Flink向1.13之后的版本[迁移作业]。
2024-01-08 17:39:19
966
原创 Flink-容错机制
Flink 作为一个大数据分布式流处理框架,必须要考虑系统的容错性,主要就是发生故障之后的恢复。Flink 容错机制的核心就是检查点,它通过巧妙的分布式快照算法保证了故障恢复后的一致性,并且尽可能地降低对处理性能的影响。本文中我们详细介绍了 Flink 检查点的原理、算法和配置,并且结合一致性理论与Flink-Kafka 的实际互连系统,阐述了如何用 Flink 实现流处理应用的端到端exactly-once 状态一致性。这既是 Flink 底层原理的深入,也与之前的状态管理、水位线机制有联系和相通之处。
2024-01-08 16:48:59
1433
原创 最全的Apache Doris教程(收藏版)共9万+字【第一篇】由于是typora编写,有部分图片在本地,识别不出来,请细聊我
简单易懂的doris教学
2023-02-22 13:33:58
38089
5
原创 【大数据技术】爆肝3天 7个章节 Hive 3.1.3详解
Hive详细介绍及简单应用,包括:入门、安装、DDL、DML、查询、函数、分区表&分桶表等内容。
2023-01-25 15:27:16
921
翻译 【ETL工具】-Kettle详细教程
Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。
2022-07-27 22:31:10
18516
5
转载 【kafka】使用本地代码作为生产者发送消息,但是在服务器中消费者接收不到信息
今天因工作需要,做了一些关于kafka实时收发数据的一些性能测试,避免不了本地的代码运行。发现使用本地代码作为生产者发送消息,但是在服务器中消费者接收不到信息。
2022-07-10 22:10:18
1914
3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人