自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 10 分钟搞定 Doris 安装!超详细步骤 + 常见问题排查(图文版)

记得将该文件分发到不同的服务器上。(xsync.sh是一个集群文件分发的shell脚本,我主页其他文章有源码)

2025-08-14 20:54:24 992

原创 Kafka 生产者与消费者分区策略全解析:从原理到实践

如果研发人员可以根据企业需求,自己重新实现分区器。1)需求例如我们实现一个分区器实现,发送过来的数据中如果包含 bigdata,就发往 0 号分区, 不包含bigdata,就发往 1 号分区。2)实现步骤(1)定义类实现 Partitioner 接口。(2)重写 partition()方法/*** 返回信息对应的分区* @param topic 主题* @param key 消息的 key* @param keyBytes 消息的 key 序列化后的字节数组。

2025-08-10 22:22:01 2135 1

原创 Kafka-Eagle 安装

1)上传压缩包 kafka-eagle-bin-2.0.8.tar.gz 到集群第一台的/opt/modules 目录。5)修改配置文件 /opt/installs/efak/conf/system-config.properties。3)将 efak-web-2.0.8-bin.tar.gz 解压至/opt/installs。# 修改数据库连接:&serverTimezone=GMT 时区一定要写,否则报405错误!第三步:分发一下 xsync.sh kafka-server-start.sh。

2025-08-05 19:16:28 871

原创 Kafka 安装避坑指南:手把手教你搭建分布式消息队列环境

在安装kafka之前我们先来了解一下kafka的概述--1.定义Kafka是一个分布式的基于发布/订阅模式的消息队列,主要应用于大数据实时处理领域。优势:kafka可以做到,使用非常普通的硬件,也可以支持每秒数百万的消息读写。2.消息队列 MQMQ (message Queue) 在传统开发中的应用场景 : 发短信、秒杀等等特点:削峰 解耦 异步消息队列的产品有很多:kafka(适用于大数据领域)、ActiveMQ、RabbitMQ、RocketMQ(javaEE项目开发)

2025-08-05 19:05:57 1997

原创 Spark 机器学习提速指南

MLlib是Apache Spark的机器学习(ML)库,它将常见的机器学习算法和实用工具集成到了Spark平台中。MLlib具有易于使用的API,能够处理大规模数据并提供与Spark平台的无缝集成。MLlib的架构主要由以下组件构成:算法库 :包含各种常见的机器学习算法,如分类、回归、聚类、协同过滤等。底层优化原语 :提供了基础的数学操作和优化算法,如线性代数、统计和随机数据生成等。

2025-08-03 17:48:42 901

原创 分享一个HIVE的小错误

假如遇到以上这个问题,就是hdfs有问题,可以在hdfs上添加一个配置:(这是我自己的路径,发出来让大家借鉴一下)记得分发给其他集群节点:(这句代码中的shell文件是我自己编写的,可以去我主页查看,我其他作品里有源码)在使用hive-sql时,查询、删除、创建都没问题,就是无法插入数据,运行insert语句就报错误。

2025-07-28 19:25:49 443

原创 解决 DolphinScheduler 运行组件爆炸问题

因为在使用DolphinScheduler 时我们一般需要打开许多进程,进而导致了内存不足,且DolphinScheduler 在运行时是极为耗费cpu的。cpu爆炸的话可以清理一下本地电脑后台。内存爆炸的话要么把虚拟机中一些无用的组件关掉要么把虚拟机关机并把虚拟机的内存资源调大一些。

2025-07-28 19:13:30 364

原创 正则表达式入门:从 “看不懂” 到 “会用” 的超详细指南

font color="#FF8C0" size=6 face="华文楷体"></font>正则表达式(Regular Expression,简称 Regex)是一种用于描述字符串模式的工具,它通过预定义的规则来匹配、查找、替换或提取文本中的特定内容。也是一套独立的、自成体系的知识点。在很多语言中,都有对正则的使用。正则表达式是用来做字符串的校验、匹配的工作的,其实正则表达式只有一个作用:验证一个字符串是否与指定的规则匹配。

2025-07-10 19:53:44 560

原创 Java虚拟机(jvm)中堆(Heap)和栈(Stack)的区别和栈内存溢出和堆内存溢出的异常表现及解决方法

(JVM)是 Java 语言的核心部分,负责将 Java 代码翻译成可在计算机上执行的指令。在 JVM 中,内存管理是一个重要的话题,而栈(Stack)和堆(Heap)是其中两个最重要的内存区域。本文将深入探究 JVM 中的栈和堆,包括其概念、特点。

2025-07-10 19:30:23 1210

原创 CDH 的介绍、安装与使用详解:一篇文章搞定大数据集群部署

是由Cloudera公司提供的一个集成了Apache Hadoop以及相关生态系统的发行版本。CDH是一个功能强大的大数据平台,简化和加速了大数据处理分析的部署和管理。CDH提供Hadoop的核心元素-可伸缩存储和分布式计算-以及基于web的用户界面和重要的企业功能。CDH是Apache许可的开放源码,是唯一提供统一批处理、交互式SQL和交互式搜索以及基于角色的访问控制的Hadoop解决方案。

2025-06-24 17:39:58 1384

原创 DolphinScheduler+Sqoop 入门避坑:一文搞定数据同步常见异常

INFO] 2024-09-25 06:19:16.083 +0000 - -> 注: /tmp/sqoop-root/compile/46c0c4b3def5aba0c202ae9664234de6/QueryResult.java使用或覆盖了已过时的 API。开启ds:bash ./bin/dolphinscheduler-daemon.sh start standalone-server。再出现错误按照下边的格式进行修改。在文档的最下边添加下边的代码。配置完成后,重启 ds。

2025-06-17 20:56:28 911

原创 Linux虚拟机中一些简单有用的脚本

一定要注意:此脚本文件,不要在windows进行编辑,否则会报错,全程使用linux进行编辑,原因是windows中的字符集和linux中的不一样。最常用的选项,表示递归模式,保留软链接、文件权限、修改时间戳、属主、属组、设备文件、特殊文件,详细显示执行过程。echo "--------jps-cluster.sh脚本执行完成!如果我们想在 node01 这台电脑上,查看整个集群的服务启动情况,可以使用这个脚本文件。除非写全路径:xcall.sh /opt/installs/jdk/bin/jps。

2025-05-20 20:52:20 576

原创 Hive 部署实战:从本地模式到远程集群的全流程解析

目录本地模式部署Hive远程模式部署配置环境变量:vi /etc/profile.d/custom_env.sh 配置hive-env.sh进入这个文件夹下:/opt/installs/hive/confcp hive-env.sh.template hive-env.sh 给hdfs创建文件夹: 使用本地模式的最大特点是:将元数据从derby数据库,变为mysql数据库,并且支持多窗口同时使用。 第一步:检查你的mysql是否正常(若是还未安装MySQL,可以去我主页查看以前的博客,有安装教程) 第二

2025-05-20 20:45:06 1006

原创 HDFS伪分布部署

- 注意: hadoop1.x时代默认端⼝9000 hadoop2.x时代默认端⼝8020 hadoop3.x时 代默认端⼝ 9820 -->参考守护进程布局 -->systemctl stop firewalld 关闭防火墙,但是开机后,防火墙还是会开启。参考守护进程布局 -->mkdir -p /opt/installs --以后存放解压后的软件。-- hdfs的基础路径,被其他属性所依赖的⼀个基础路径 -->mkdir -p /opt/modules --以后存放安装包。

2025-05-12 19:58:08 1039

原创 Linux系统中的 sed操作(非常重要)

sed 可选项 目标文件对目标文件 进行或pprint打印代表 最后一行-n仅显示处理后的结果-eexpression根据表达式 进行处理案例:搞一些数据 6.txtbbb helloccc rteee rttggg rttt列出6.txt中的3~5行的数据:假如没有学过sed可以这么干:显示第一行到最后1行的数据:显示第二行到最后一行。

2025-05-10 14:27:53 799

原创 shell脚本命令中的awk(很重要)

root@bigdata01 scripts]# awk -F ' ' 'BEGIN{print "开始计算成绩:"}{total=total+$4}END{print "总成绩 是:"total",总条数是:"NR}' 4.txt。cat 4.txt | awk -F ' ' 'BEGIN{print "开始计算成绩总和"}{total=total+$4}END{print total,NR,(total/NR)}'awk -F ',' '{print $1,$2, $3}' 文件。

2025-05-10 14:12:34 922

原创 Linux中的常见shell命令(超详细)

脚本后缀sh 和 后缀bash 是一回事,sh 是 bash 的软链接,也就是这两个是一回事所谓的脚本就是将我们经常使用的linux命令汇总在一个文件中而已。

2025-05-10 08:43:53 1991

原创 Linux中的常见命令总结(详细完整)

可以通过enter键,继续往后查看,继续往后查看,每次查看一行数据,点击space键,每次查看一页数据如果不想看了,可以输入 q。可以通过enter键,继续往后查看,每次查看一行数据,点击space键,每次查看一页数据,如果不想看了,可以输入 q。tail -f /etc/services 滚动查看某个文件(一般该文件是日志文件,不断的有内容往里面写入)不要尝试,在没配置Linux系统的回收站时,千万别试,下边这条命令是把系统中所有文件全部删除(删库跑路专用)

2025-05-09 19:52:33 969

原创 在Linux系统虚拟机Centos7中安装MySQL8.0

4.解压压缩包 tar -xvf mysql-8.0.26-1.el7.x86_64.rpm-bundle.tar。删除命令:rpm -e mariadb-libs-5.5.56-2.el7.x86_64 --nodeps。5.查看是否有MySQL数据库 rpm -qa | grep MySQL。

2025-05-07 20:54:01 737

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除