不吃饭的猪-优快云博客

原创常用脚本汇总

会生成crontab的定时任务（进入 /opt/gaea/node 目录定时执行脚本）linux客户端直接执行。

2025-12-25 10:53:03 60

原创 kafka输出报错

2，报错分析，报错显示kafka不支持事务，查官网验证kafka2.8版本是支持事务的，kafka是2.13-2.8.0的版本。3，代码中实现设置不适用事务也不行，2.8的客户端中实现实例的时候默认就是事务。4，最后追踪，我依赖中的scala是2.12版本替换后解决。中间会给transactionalId 设置值。1，kakfa输出报错。

2025-12-05 18:23:36 324

原创获取hive/impala表下表所有分区

impala/hive获取所有表分区信息

2025-10-16 15:34:24 302

#!/bin/bashKAFKA_HOME=“/home/kafka_2.11”KAFKA_START_SCRIPT=“$KAFKA_HOME/bin/kafka-server-start.sh”KAFKA_CONFIG_FILE=“$KAFKA_HOME/config/server.properties”LOG_FILE=“$KAFKA_HOME/kafka_startup.log”function log_message {echo “$(date ‘+%Y-%m-%d %H:%M:%S’) 1">>

2025-09-12 09:48:47 370

原创 clickhouse单节点更改为副本集

将数据从旧表移动到新表（/var/lib/clickhouse/data/db_name/table_name/）目录内的 ‘detached’ 目录中。如果你有一个手动同步的 MergeTree 表，您可以将其转换为可复制表。如果你已经在 MergeTree 表中收集了大量数据，并且现在要启用复制，则可以执行这些操作。如果各个副本上的数据不一致，则首先对其进行同步，或者除保留的一个副本外，删除其他所有副本上的数据。1，创建新的本地表和分布式表（表结构和dwd_testsadf broad_temp一致）

2025-08-20 19:18:29 318

原创记一次impala的kerberos的配置信息

impala

2025-08-15 12:00:12 798

原创记一次将linux本地文件映射到外网的方法

【代码】记一次将linux本地文件映射到外网的方法。

2025-08-01 14:35:31 157

原创验证pyspark提交参数指定环境变量生效

pyspark提交命令

2025-07-29 19:06:30 340

原创 ClickHouse系列--BalancedClickhouseDataSource实现

2.通过一个定时线程任务，来不断的去ping url列表，来更新可用的url列表；clickhouse-jdbc中负载均衡数据源的实现。1.通过配置的url串，来切分构造url列表；新需求，每次获取连接实例的时候打印出连接的ip。3.在可用列表中随机返回一个可用url；

2025-06-26 10:31:52 376

原创记一次spark在docker本地启动报错

本地启动失败异常

2025-06-05 15:50:48 665

原创记一次运行spark报错

spark和hadoop版本问题

2025-06-04 09:00:43 350

原创 impala中更改公网ip为内网ip

impala多网卡，使用内网ip不使用公网ip修改以及配置和功能解释

2025-06-03 09:58:37 310

原创 pyspark测试样例

data = [(“Alice”, 586240, 177)] # 注意这里逗号使用的是英文逗号。

2025-05-22 15:41:45 168

原创 pyspark测试样例

data = [(“Alice”, 586240, 177)] # 注意这里逗号使用的是英文逗号。

2025-05-19 14:42:45 509

原创记一次carbondata自动删除元数据恢复方法

carbondata中误删数据恢复

2025-01-16 22:20:28 318

原创 ck集群数据迁移

特殊clickhouse数据迁移

2024-12-24 19:00:34 1142

原创 windows远程连接跳板机

windows远程连接ip

2024-11-08 10:12:13 594

原创 Intellij IDE报错:[Information:java:javacTask:源发行版8需要目标发行版1.8]

Intellij IDE报错:[Information:java:javacTask:源发行版8需要目标发行版1.8]处理方法File->Settings->Build,execution,Deployment->Compiler->Java Compiler进入该目录下，修改Per-module bytecode version，将该项目修改为8直接输入1次#，并按下space后，将生成1级标题。输入2次#，并按下space后，将生成2级标题。以此类推，我们支持6级标题。有助于使用语法后生成一个完

2024-11-05 17:06:52 1149

原创 clickhouse数据目录迁移小记

22版本以后直接更改配置文件的存储路径不行，需要将默认的/var/lib/clickhouse mv到/data/clickhouse 中然后创建软连接 ln -s /data/clickhouse /var/lib。clickhouse在22版本之前可以直接更改数据存储目录。

2024-09-27 14:09:48 285

原创 java.lang.ClassNotFoundException: org.springframework.test.context.TestContextAnnotationUtils问题处理

由于代码验收，我这边使用的是第三方提供的框架，然后将自己的依赖等加入，但是加入maven中将springtest的版本用了自己的版本和第三方的不同。这是由于 spring-boot-test 和 spring-test 的版本没有匹配上。使用@SpringBootTest进行单元测试。

2024-09-25 10:33:32 536

原创 spark之不同序列化对比

在这里插入图片描述](https://i-blog.csdnimg.cn/direct/572b925ccfab414cb9c314be329cfa5f.png。sparksql中使用序列化和不使用差别不大，英文sparksql中默认使用了encode自己实现的序列化方法，加上与不加序列化差别不大。下面是使用不同序列化后的占用资源和数据大小。一，spark的rdd的序列话不同介绍。2，sparksql中序列化的区别。

2024-09-20 22:11:56 491

原创 springboot中报错NullPointerExceptionCRit

网上找了相关方法，加了这个类的扫描路径指定。

2024-09-20 22:01:35 297

原创 mysql一主2从部署

1.编辑配置文件修改 MySQL 配置文件（/etc/my.cnf 或 /etc/mysql/my.cnf）以启用二进制日志和设置服务器 ID。4.获取主服务器状态记录主服务器的二进制日志文件名和位置，以便从服务器配置时使用。3.配置从服务器登录 MySQL 并设置主服务器信息和复制用户。3.创建复制用户登录 MySQL 并创建用于复制的用户。rpm -e --nodeps [要卸载的mysql]MASTER_LOG_FILE=‘记录的日志文件名’,4.启动复制启动从服务器的复制进程。

2024-09-13 15:59:46 1267

原创 java中jar包替换指定类的方法

目的是：要将log-retain-service-3.1.4.jar中FileUploadTimerTask修改后，再打回包log-retain-service-3.1.4.jar中。或者你有源码直接改，存在单个类编译报错，这时候可以将整个项目打包成包b，然后从包b中解压出我们要的那个类，这时候这个类就是编译后的文件，可以直接打进我们。<jar -utf log-retain-service-3.1.4.jar 编译后的类文件路径>log-retain-service-3.1.4.jar中。

2024-09-11 18:31:33 507

原创问题归类集合

hiveserver2查询报错gc。

2024-09-11 17:26:45 141

原创 idea单元测试报错找不到主类

在下面的command line 中选择jar manifest 因为条参数过长，这里设置只使用主类。主要是单测中没有配置类。

2024-09-05 21:50:06 380

原创 Caused by: java.lang.RuntimeException: native zStandard library not available: this version of

最后排查是，集群中的配置路径和我客户端的路径不同，导致任务提交后，还是拿不到库的信息。排查本地环境 hadoop checknative 结果中是有zstd的支持的类库。背景：通过spark直接写hadoop文件,指定格式是csv。3，注意，更改客户端环境一定要注意保证和集群一致，细心细心。再提交后任务还是报一样的错。

2024-09-05 17:53:46 505

原创 kerberos部署

1，kerberos部署中，多个principal公用一个keytab文件处理。执行 kadmin -p admin/admin@EXAMPLE.COM。再一个个的将用户添加到keytab中。

2024-08-21 16:52:33 444

原创记一个启动有ranger的hiveserver2报错

修改hadoop的etc/hadoop/hadoop-env.sh 中的export HADOOP_OPTS="$HADOOP_OPTS -Djava.security.auth.login.config配置的路径，之前配置有误。1，启动hiveserver2报错。

2024-08-21 15:26:42 432

原创记一次hivemetastore启动报错

4，最后排查，这个节点rpm部署了hive,现在只是copy了一个hive的目录过来，导致/usr/bin/hive 这个里面和现在部署的安装包不是同一个。3，把hive-site.xml中无关的配置都删掉，重启metastore还是报错。1，启动hivemetastore后报错日志。2，排查lib下的mysql的驱动也在，这里和mysql的驱动大小一样。

2024-08-20 17:01:10 592

原创【无标题】

kerberos启动datanode报错

2024-08-12 16:04:13 275

原创 clickhouse的依赖包

1，clickhouse的依赖包下载。

2024-08-06 13:48:22 242

原创 yum源添加

类似CentOS-7-x86_64-DVD-1810.iso切分成CentOS-7-x86_64-DVD-1810.z01 CentOS-7-x86_64-DVD-1810.z02 CentOS-7-x86_64-DVD-1810.zip 上传后，执行cat CentOS-7-x86_64-DVD-181* >CentOS-7-x86_64-DVD-1810.zip 再执行unzip CentOS-7-x86_64-DVD-1810.zip。[cdrom]: 是这个Yum源的名称，可以自定义。

2024-08-05 22:14:34 713

原创 Hadoop 3.3.2 HDFS Simple认证Standby同步格式化信息失败 Authentication required

Hadoop 3.3.2 HDFS Simple认证Standby同步格式化信息失败 Authentication required。部署hadoop3.3.2的版本的时候，格式化standby的时候报错。

2024-08-05 14:20:55 380

原创记一次zookeeper启动问题

zookeeper启动问题

2024-08-02 14:03:06 581

原创 kerberos认证流程

2，你到了助理办公司，助理拿你的信，（对照一下信里的消息，确认是不是你这个人）确认没问题，告诉你领导位置，同时也会给你一封信（你看不懂的）1，生活场景你进入某公司要见领导首先第一次跟保安打交道，沟通完了，保安告诉你助理的办公室位置和一封信（你看不懂，助理看的懂）3，你找到领导，领导拿到你的信（对比一下是不是这个人），没问题了，开始沟通。kerberos 认证3步骤。

2024-08-01 10:00:28 306

原创 kerberos术语

kerberos中认证使用的用户信息也就是（principal 主体中），如果是用户的话，这里包含用户的名称，用户的角色，比如admin，普通用户，等，还有对应的域。

2024-08-01 09:49:37 182

原创获取对象占用内存

计算大小：如果元素非空，则使用ClassLayout.parseInstance方法解析该对象，并调用instanceSize方法获取其在内存中占用的字节数。初始化：定义一个变量byteSize用于存储所有对象的总字节数，初始值为0。遍历列表：通过for循环遍历传入的dataList中的每一个元素。返回结果：遍历结束后，返回byteSize作为所有对象的总字节数。累加大小：将当前对象的字节数累加到byteSize中。检查元素：对于每个元素，首先检查它是否为非空对象。// 初始化字节大小为0。

2024-07-31 15:23:59 305

hive监控（查询的执行时间和资源消耗信息）

2025-11-12

【大数据平台】Zookeeper 3.4.14安装部署指南：从解压到集群配置详细步骤说明

内容概要：本文档详细介绍了Zookeeper 3.4.14版本的安装与部署流程。首先准备安装包并解压到指定目录，然后配置`zoo.cfg`文件，包括设置tick时间、初始化同步时长、同步限制、快照存储路径、客户端连接端口、日志存储路径等关键参数。对于集群配置，指定了三台服务器的具体配置项。接着，在每台服务器上设置唯一的ID标识，并启动Zookeeper服务。最后提供了检查服务状态的方法。此外，还特别提到在纯IPv6环境下部署时需要正确配置`/etc/hosts`文件；适合人群：有一定Linux操作基础，对分布式系统感兴趣的开发者或运维人员；使用场景及目标：①在本地环境中搭建单机版Zookeeper用于学习研究；②构建生产环境下的高可用Zookeeper集群；阅读建议：由于涉及到具体的命令行操作和配置细节，建议读者按照文档步骤逐一实践，同时理解每个配置项的作用，以便遇到问题时能够快速定位和解决。

2025-08-01

g### 【数据库技术】bGBase 8ac多模多态分布s式数据库：e产品特性、架构与应用场景详解

内容概要：本文介绍了南大通用数据技术股份有限公司推出的GBase 8c多模多态分布式数据库的产品特点、架构和技术优势。GBase 8c旨在解决传统数据库的扩展性和性能瓶颈，提供了单机、主备式和分布式三种部署模式，支持行存、列存和内存三种存储引擎，以适应不同的业务需求。它具备强一致性的分布式事务处理能力，支持高可用性、异地多活部署、数据安全和弹性伸缩等功能。此外，GBase 8c还支持主流数据库语法和多种国产生态，确保了广泛的兼容性和安全性。适用人群：适合对分布式数据库有需求的技术人员，尤其是需要处理大规模数据和高并发场景的企业IT团队。使用场景及目标：①适用于需要高扩展性和高可用性的应用场景，如金融、电信等行业；②支持多模态存储引擎，满足OLTP、OLAP和实时分析等不同业务需求；③提供完善的灾备和数据迁移解决方案，确保业务连续性和数据安全。其他说明：GBase 8c不仅在技术上实现了分布式数据库的核心特性，还在生态兼容性方面做了大量工作，支持国产CPU、操作系统和中间件，能够更好地服务于国内用户。此外，GBase 8c还提供了详细的培训课程和认证体系，用户可以通过“南大通用培训中心”公众号报名学习，进一步提升对产品的理解和应用能力。

2025-06-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

hive监控（查询的执行时间和资源消耗信息）

【大数据平台】Zookeeper 3.4.14安装部署指南：从解压到集群配置详细步骤说明

g### 【数据库技术】bGBase 8ac多模多态分布s式数据库：e产品特性、架构与应用场景详解

kafka-3.5.1-src

carbondata-apache-carbondata-2.3.0-rc1

apache-ranger-2.1.0.tar.gz

hbase的2.6.0的基于hadoop3的包

Beyond-Compare-onlinedown.zip

系统编译时候依赖不同的版本的glibc

clickhouse-client-23.3.1.2823.x86-64中的4个包，还有一个比较大，分开上传，描述中贴有地址

clickhouse-common-static-dbg-23.3.1.2823.x86-64的第二部分，需要将两个问件合并

clickhouse-common-static-dbg-23.3.1.2823.x86-64包前部分

clickhouse的依赖包

hive权限管控jar（hiveAuth.zip）

java中守护进程小结

impala-3.4.pdf

空空如也