自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(68)
  • 收藏
  • 关注

原创 Flink 内存管理

上图是一个 Flink 程序进程总体的内存模型,其包含 Flink 使用内存、JVM 元空间以及 JVM 开销。JVM Heap:JVM 堆上内存Framework Heap Memory:Flink 框架本身使用的内存,不计入 Slot 资源中;Task Heap Memory:Task 执行用户代码时所使用的堆上内存;Off-Heap Memory:JVM 堆外内存Direct Memory:JVM 直接内存。

2025-03-19 17:14:27 1025

原创 使用clickhouse-backup做数据备份与还原

clickhouse-backup 是社区开源的一个 clickhouse 备份工具,可用于实现数据迁移。其原理是先创建一个备份,然后从备份导入数据,类似于 MySQL 的 mysql dump + source。

2025-02-26 15:17:39 564

原创 ElasticSearch 简介

ElasticSearch 是基于 Lucene 的 Restful 的分布式实时全文搜索引擎。

2024-12-14 23:01:09 1470

原创 ElasticSearch 调优

磁盘在现代服务器上通常都是瓶颈。Elasticsearch 重度使用磁盘,磁盘能处理的吞吐量越大,你的节点就越稳定。

2024-12-13 16:35:48 1233

原创 CentOS 创建逻辑卷合并多个物理卷

在系统部署时,有时会遇到需要将多个硬盘合并到“一块”,然后再挂载到指定目录下的情况,达到一个目录使用多块硬盘存储空间的效果。

2024-12-04 15:06:11 612

原创 Superset 安装部署

本文使用的服务器操作系统为 CetnOS 7 ,Superset 对接的数据源为 MySQL 数据库。

2024-11-19 16:38:58 2074

原创 网卡流量速度检测脚本

【代码】网卡流量速度检测脚本。

2024-09-27 16:17:46 178

原创 因 Mysql root 密码过于简单导致 Mysql 连接失败的解决方法

Access denied for user 'root'@'192.168.xx.xx' (using password: YES)

2024-09-04 22:42:23 635

原创 PVE 系统下虚拟机数据盘从IDE转换为VIRIO

文件系统 容量 已用 可用 已用% 挂载点umount: /data:未挂载。

2024-08-15 10:27:41 1018

原创 Spark RDD 介绍

弹性分布式数据集,是 Spark 中最基本的数据处理模型。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合;

2024-07-26 16:19:05 580

原创 Spark 运行架构

Spark 框架的核心是一个计算引擎,整体来说,它采用了标准的 master-slave 结构。上图中的 Driver 表示 master ,负责管理整个集群中的作业任务调度;Executor 则是 slave,负责实际执行任务;

2024-07-23 17:53:45 1399

原创 Hive 函数

UDF(User-Defined-Function) 普通函数,一进一出;例如:round 这样的函数;UDAF(User-Defined Aggregation Function)聚合函数,多进一出;例如:count、sum 这样的函数;UDTF(User-Defined Table-Generating Function)表生成函数,一进多出;例如:explode 函数。

2024-07-16 17:26:04 1172 1

原创 Hive 常见问题

UDF :用户自定义函数,一对一输出,例如 round;UDTF :用户自定义表生产函数,一对多输出,例如 explode;UDAF :用户自定义聚合函数,多对一输出,例如count,sum 等;数据倾斜是指在分布式处理中,数据不均匀,有部分数据比较集中;数据倾斜会使得在处理过程中,某个结点的处理效率过低,甚至造成内存溢出;

2024-07-15 12:18:07 1159

原创 Hive及其架构简介

Hive的order by和sort by的区别:orderby会对输入数据做全局排序,只有一个reduce,数据量较大时,很慢。sortby是局部排序,只能保证每个reduce有序,不能保证全局有序。Hive的数据倾斜:倾斜原因: map输出数据按key Hash的分配到reduce中,由于key分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。1)、key分布不均匀;2)、业务数据本身的特性;3)、建表时考虑不周;4)、某些SQL语句本身就有数据倾

2024-07-11 17:34:30 450 1

原创 Flink 容错机制

当 Flink 的 JobManager 发起一个 checkpoint 时,它会向所有的 TaskManager 发送一个 checkpoint barrier。当一个算子接收到 barrier ,它会停止处理新的输入数据,直到所有的并行实例都接受到 barrier 并准备好进行 checkpoint;Jobmanager 向失败的 TaskManager 发送恢复指令,指示它从特定的 checkpoint 恢复,TaskManager 接收到指令后,会加载对应的 checkpoint 的状态;

2024-07-02 10:02:23 645

原创 Flink 运行时架构

以上是从一个较为高级的视角,来看应用中各组件的交互协作。如果部署的集群环境不同,其中一些步骤可以省略,或是有些组件会运行在同一个 JVM 进程中。下面以具体部署到 Yarn 上为例:

2024-07-01 10:54:37 1033

原创 Java HashMap 简介

解决方法:

2024-06-25 21:11:30 545

原创 Flink 状态管理

流式计算分为无状态和有状态两种情况。无状态的计算观察每个独立事件,并且根据最后一个事件输出结果。例如,流处理应用程序从传感器接收温度读数,并在温度超过90度时发出告警。有状态的计算则会基于多个事件输出结果。例如,计算过去一小时的平均温度。以及在一分钟之内收到两个相差20度以上的温度读数,则发出告警。上图中输入数据由黑条表示。无状态流处理每次只转换一条输入记录,并且仅根据最新的输入记录输出结果(白条)。

2024-06-25 16:41:46 803

原创 JVM 内存模型

Java 虚拟机在执行 Java 程序的过程中,会把它管理的内存划分成若干个不同的数据区域。JDK 1.8 和之前的版本略有不同,这里介绍 JDK 1.7 和 JDK 1.8 两个版本。

2024-06-24 21:22:35 947

原创 Flink 窗口函数

Flink 流式计算是一种被设计用于处理无限数据集的数据处理引擎,而无限数据集是指一种不断增长的本质上无限的数据集,而 window 是一种切割无线数据为有限块进行处理的手段。

2024-06-17 17:44:11 960

原创 JVM 类加载过程详情

最顶层的类加载器,由 C++ 实现,通常表示为 null,并且没有父级,主要用来加载 JDK 内部的核心类库(%JAVA_HOME%/lib 目录下的 rt.jar 、resource.jar 、charsets.jar 等jar包和类)以及被 -Xbootclasspath 参数指定的路径下的所有类;双亲委派模型保证了 Java 程序的稳定运行,可以避免类的重复加载(JVM 区分不同类的方式不仅仅根据类名,相同的类文件被不同的类加载器加载产生的是两个不同的类),也保证了Java 的核心API不被篡改。

2024-06-07 15:12:45 1074

原创 Linux实用命令及脚本

Linux实用命令及脚本

2024-05-08 10:43:40 249 1

原创 虚拟机镜像文件qcow2格式转vmdk

qcow2转vmdk

2024-05-08 10:33:11 3046

原创 虚拟机镜像文件格式qcow2转zst

qcow2转zst

2024-05-08 10:03:08 621

原创 单节点大数据平台运维脚本

单节点的大数据平台运维脚本

2024-02-26 16:44:21 592

原创 ubuntu系统下大数据服务器磁盘调优测试记录

磁盘性能调优测试

2024-02-26 15:23:22 1346

原创 Apache 原生 Hadoop 运维命令

hadoop检查相关命令

2023-09-18 15:48:55 459

原创 clickhouse调优配置

clickhouse配置调优

2023-09-04 16:28:41 1569

原创 Prometheus + grafana 的监控平台部署

Prometheus + grafana 的监控平台安装部署

2023-09-01 17:25:34 950

原创 zookeeper-3.6.4集群搭建

上传路径:/opt/software/解压路径:/opt/module/

2023-09-01 15:00:37 981

原创 ntp同步异常问题解决方案

解决集群ntp同步异常问题

2023-08-31 16:53:31 813

原创 服务器间 ssh 免密登录

配置ssh免密登录

2023-08-29 10:32:41 157

原创 linux 命令批量执行脚本及文件分发脚本

工具脚本

2023-08-29 10:04:14 1898

原创 ElasticSearch集群+kibana部署

es集群+kibana部署

2023-08-29 09:54:37 417

原创 flink on yarn 三种部署模式的相关命令及其差异

flink on yarn 的三种部署模式

2023-08-28 21:59:23 1179

原创 Centos7挂载2T以下及2T以上硬盘

使用fdisk工具对磁盘分区。

2023-04-20 17:31:19 3526 1

原创 清理hdfs上flink程序残留的文件

hdfs垃圾文件过多,占用过多磁盘

2023-04-20 15:01:34 1014 2

原创 记一次宕机造成的flink消费Kafka topic失败问题

kafka报错:Error while fetching metadata with correlation id 72 :{topic=LEADER_NOT_AVAILABLE}

2023-04-13 16:32:16 925

原创 clickhouse基本数据类型

clickhouse基本数据类型

2023-03-31 11:29:55 869

原创 centos 8 编译安装hyperscan

CentOS 8 编译安装hyperscan

2023-03-09 16:50:08 580 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除