buleMoMo大军之一-优快云博客

原创 kafka集群启动问题——Cannot allocate memory

kafka集群的02,03不启动，日志中报错，这是内存不足，需要在启动不起来的节点上修改kafka启动脚本中KAFKA_HEAP_OPTS的值。KAFKA_HEAP_OPTS 是 Kafka 启动脚本中用于设置 Kafka 进程堆内存大小的环境变量。这个变量默认1G，修改为521M，完美启动！

2025-08-06 20:36:16 184

原创查看被占端口使用情况

各个工具集开启多个后往往会出现端口被占用的情况，在这个分享一下如何查看被占端口的情况。然后对比修改端口号即可正常运行！

2025-08-06 09:16:15 272

我们需要一个顾客 ID 列表，其中包含他们已订购的总金额。OrderItems表代表订单信息，OrderItems表有订单号：order_num和商品售出价格：item_price、商品数量：quantity。Orders表订单号：order_num、顾客id：cust_id【问题】编写 SQL语句，返回顾客 ID（Orders 表中的 cust_id），并使用子查询返回total_ordered 以便返回每个顾客的订单总金额，将结果按金额从大到小排序。

2025-07-08 19:39:38 384

原创数据库设计基石：三大范式详解与实战应用指南

第一范式（1 NF）：字段不可再拆分。第二范式（2 NF）：表中任意一个主键或任意一组联合主键，可以确定除该主键外的所有的非主键值。第三范式（3 NF）：在任一主键都可以确定所有非主键字段值的情况下，不能存在某非主键字段 A 可以获取某非主键字段 B。

2025-06-08 23:53:18 1567

原创问题记录：No enum constant com.alibaba.datax.plugin.unstructuredstorage.reader.UnstructuredStorageReader

现总结datax与hive,mysql,oracle间的数据类型映射。datax从hive导数据到mysql时报错。datax中数据类型转化异常。把类型修改正确就可以导出！

2025-06-06 18:35:17 400

原创帆软初级FCA-FineBI考试回顾

组件复用是指在一个仪表板中制作了一个组件，可以重复使用到同一分析主题中另外一个仪表板中，即如果同一个分析中的不同仪表板用到了同一个组件，且其设置过程也一样，那么，为了方便，可以直接使用组件复用，无需进行重复设置，FineBI是支持同一分析主题中不同仪表板组件复用的。根据数据：Sample-Superstore-Subset-Excel.xlsx（数据下载），分析：如果 2013 年的销售额预计在接下来的一年里会提升 50%，那么在 2014 年，“Consumer”细分市场的预计总销售额会是多少？

2025-06-05 19:06:52 1425

原创解决DataX报错UnstructuredStorageReader-03的方法

DataX作业运行时出现参数不合法报错，提示仅支持单字符切分但配置了"/01"。问题根源是Hive表默认使用ASCII码\001（^A）作为分隔符，而在JSON配置中需使用Unicode转义格式"\u0001"表示。解决方案包括：1)将分隔符改为"\u0001"；2)对于ORC/Parquet格式无需配置分隔符。文中还总结了JSON中常见分隔符的表示方式，如制表符用"\t"、逗号直接使用","等。该问题是由于

2025-06-03 19:10:42 442

原创 Hive中的数据倾斜原因及解决方法

数据倾斜表现为数据分布不均导致部分任务执行缓慢。主要原因及解决方案包括：1) 数据类型不一致（统一字段类型）；2) 大量null值（异常值过滤/非异常值随机赋值）；3) 单表group by倾斜（启用map端聚合或增加reduce数量）；4) 多表join倾斜（设置拆分阈值、使用MapJoin或SMB Join）。通过数据均匀分布和参数优化可有效解决倾斜问题。

2025-05-28 20:52:27 871

原创 Hive中的by家族

本文介绍了Hive中的几种排序和分区方式：1）order by用于全局排序但效率较低；2）sort by在每个reduce内部排序；3）distribute by按字段分区处理；4）cluster by在分区字段与排序字段相同时使用。此外还说明了建表时使用的分区（partitioned by）和分桶（clustered by）语法，分区是按目录划分数据集，分桶则是通过哈希算法将数据分成小文件。这些方法各有适用场景，可根据数据规模和查询需求选择合适的排序分区策略。

2025-05-26 19:56:32 566

原创 cannot recognize input near ‘＜EOF＞‘ ‘＜EOF＞‘ ‘＜EOF＞‘ in subquery source

在使用datagrip写hive时出现。的错误，这是不能识别子查询。给每个子查询都起别名。

2025-05-25 14:35:56 562

原创 Hadoop-启用HDFS回收站功能（防止误删数据）

HDFS的回收站（Trash）是一个用于临时存放被删除文件的机制，类似于操作系统中的回收站。它允许用户在误删文件后恢复数据，避免因误操作导致永久丢失。

2025-05-21 09:18:30 961

原创 Hadoop集群完全分布式搭建(保姆级教程)

此次搭建实在伪分布的基础上进行完全分布式搭建,hadoop版本是3.3.1,安装目录是/opt/installs/hadoop。

2025-05-13 12:52:01 1469

原创 shell三剑客之grep

grep 是一个功能强大、灵活且高效的文本搜索工具，几乎适用于所有需要文本处理的场景。无论是开发、运维还是数据分析，掌握 grep 的使用方法都能显著提升工作效率。希望这篇文章能帮助你快速了解和上手使用 grep！

2025-05-10 17:21:04 441

原创 Shell脚本之$符号大家族

本文介绍了Bash脚本中的参数处理、变量操作、命令替换和算术运算。首先，通过$0、$n、$#、$*和$@等特殊变量，可以获取脚本文件名、参数及其数量。其次，变量操作部分展示了如何定义和使用变量，以及通过${}进行字符串处理。命令替换部分比较了$()和``的用法，推荐使用$()进行嵌套操作。最后，算术运算部分介绍了$[]、$(())和(())的使用场景，特别是(())在条件表达式中的应用。这些技巧有助于编写更高效和灵活的Bash脚本。

2025-05-10 16:16:34 853

原创 Linux安装JDK8(保姆级教程）

jdk安装包jdk:通过网盘分享的文件：jdk8链接: https://pan.baidu.com/s/1Jf3rnqvdQmITfVdqF9G2Tw?pwd=v2vn 提取码: v2vn。

2025-05-08 20:43:10 864

原创 Linux安装MySQL(CentOS 7)

链接: https://pan.baidu.com/s/1U4qDLRl0l0U_a4t3MuMBhA?pwd=nddj 提取码: nddj。通常情况下，mysql默认不共享远程连接的，只能本地localhost连接。这个时候我们就需要在mysql中做一些授权。Linux会自带一个数据库，在安装之前需要先卸载。mysql在安装后会有默认密码，先查看默认密码。mysql -uroot -p 敲回车。通过网盘分享的文件：mysql。进入MySQL修改密码校验规则。上传压缩包到上述目录进行解压。

2025-05-07 20:13:36 800 2

m0_53042880的博客