- 博客(16)
- 收藏
- 关注
原创 kafka集群启动问题——Cannot allocate memory
kafka集群的02,03不启动,日志中报错,这是内存不足,需要在启动不起来的节点上修改kafka启动脚本中KAFKA_HEAP_OPTS的值。KAFKA_HEAP_OPTS 是 Kafka 启动脚本中用于设置 Kafka 进程堆内存大小的环境变量。这个变量默认1G,修改为521M,完美启动!
2025-08-06 20:36:16
184
原创 记录牛客SQL
我们需要一个顾客 ID 列表,其中包含他们已订购的总金额。OrderItems表代表订单信息,OrderItems表有订单号:order_num和商品售出价格:item_price、商品数量:quantity。Orders表订单号:order_num、顾客id:cust_id【问题】编写 SQL语句,返回顾客 ID(Orders 表中的 cust_id),并使用子查询返回total_ordered 以便返回每个顾客的订单总金额,将结果按金额从大到小排序。
2025-07-08 19:39:38
384
原创 数据库设计基石:三大范式详解与实战应用指南
第一范式(1 NF):字段不可再拆分。第二范式(2 NF):表中任意一个主键或任意一组联合主键,可以确定除该主键外的所有的非主键值。第三范式(3 NF):在任一主键都可以确定所有非主键字段值的情况下,不能存在某非主键字段 A 可以获取 某非主键字段 B。
2025-06-08 23:53:18
1567
原创 问题记录:No enum constant com.alibaba.datax.plugin.unstructuredstorage.reader.UnstructuredStorageReader
现总结datax与hive,mysql,oracle间的数据类型映射。datax从hive导数据到mysql时报错。datax中数据类型转化异常。把类型修改正确就可以导出!
2025-06-06 18:35:17
400
原创 帆软初级FCA-FineBI考试回顾
组件复用是指在一个仪表板中制作了一个组件,可以重复使用到同一分析主题中另外一个仪表板中,即如果同一个分析中的不同仪表板用到了同一个组件,且其设置过程也一样,那么,为了方便, 可以直接使用组件复用,无需进行重复设置,FineBI是支持同一分析主题中不同仪表板组件复用的。根据数据:Sample-Superstore-Subset-Excel.xlsx(数据下载),分析:如果 2013 年的销售额预计在接下来的一年里会提升 50%,那么在 2014 年,“Consumer”细分市场的预计总销售额会 是多少?
2025-06-05 19:06:52
1425
原创 解决DataX报错UnstructuredStorageReader-03的方法
DataX作业运行时出现参数不合法报错,提示仅支持单字符切分但配置了"/01"。问题根源是Hive表默认使用ASCII码\001(^A)作为分隔符,而在JSON配置中需使用Unicode转义格式"\u0001"表示。解决方案包括:1)将分隔符改为"\u0001";2)对于ORC/Parquet格式无需配置分隔符。文中还总结了JSON中常见分隔符的表示方式,如制表符用"\t"、逗号直接使用","等。该问题是由于
2025-06-03 19:10:42
442
原创 Hive中的数据倾斜原因及解决方法
数据倾斜表现为数据分布不均导致部分任务执行缓慢。主要原因及解决方案包括:1) 数据类型不一致(统一字段类型);2) 大量null值(异常值过滤/非异常值随机赋值);3) 单表group by倾斜(启用map端聚合或增加reduce数量);4) 多表join倾斜(设置拆分阈值、使用MapJoin或SMB Join)。通过数据均匀分布和参数优化可有效解决倾斜问题。
2025-05-28 20:52:27
871
原创 Hive中的by家族
本文介绍了Hive中的几种排序和分区方式:1)order by用于全局排序但效率较低;2)sort by在每个reduce内部排序;3)distribute by按字段分区处理;4)cluster by在分区字段与排序字段相同时使用。此外还说明了建表时使用的分区(partitioned by)和分桶(clustered by)语法,分区是按目录划分数据集,分桶则是通过哈希算法将数据分成小文件。这些方法各有适用场景,可根据数据规模和查询需求选择合适的排序分区策略。
2025-05-26 19:56:32
566
原创 cannot recognize input near ‘<EOF>‘ ‘<EOF>‘ ‘<EOF>‘ in subquery source
在使用datagrip写hive时出现。的错误,这是不能识别子查询。给每个子查询都起别名。
2025-05-25 14:35:56
562
原创 Hadoop-启用HDFS回收站功能(防止误删数据)
HDFS的回收站(Trash)是一个用于临时存放被删除文件的机制,类似于操作系统中的回收站。它允许用户在误删文件后恢复数据,避免因误操作导致永久丢失。
2025-05-21 09:18:30
961
原创 Hadoop集群完全分布式搭建(保姆级教程)
此次搭建实在伪分布的基础上进行完全分布式搭建,hadoop版本是3.3.1,安装目录是/opt/installs/hadoop。
2025-05-13 12:52:01
1469
原创 shell三剑客之grep
grep 是一个功能强大、灵活且高效的文本搜索工具,几乎适用于所有需要文本处理的场景。无论是开发、运维还是数据分析,掌握 grep 的使用方法都能显著提升工作效率。希望这篇文章能帮助你快速了解和上手使用 grep!
2025-05-10 17:21:04
441
原创 Shell脚本之$符号大家族
本文介绍了Bash脚本中的参数处理、变量操作、命令替换和算术运算。首先,通过$0、$n、$#、$*和$@等特殊变量,可以获取脚本文件名、参数及其数量。其次,变量操作部分展示了如何定义和使用变量,以及通过${}进行字符串处理。命令替换部分比较了$()和``的用法,推荐使用$()进行嵌套操作。最后,算术运算部分介绍了$[]、$(())和(())的使用场景,特别是(())在条件表达式中的应用。这些技巧有助于编写更高效和灵活的Bash脚本。
2025-05-10 16:16:34
853
原创 Linux安装JDK8(保姆级教程)
jdk安装包jdk:通过网盘分享的文件:jdk8链接: https://pan.baidu.com/s/1Jf3rnqvdQmITfVdqF9G2Tw?pwd=v2vn 提取码: v2vn。
2025-05-08 20:43:10
864
原创 Linux安装MySQL(CentOS 7)
链接: https://pan.baidu.com/s/1U4qDLRl0l0U_a4t3MuMBhA?pwd=nddj 提取码: nddj。通常情况下,mysql默认不共享远程连接的,只能本地localhost连接。这个时候我们就需要在mysql中做一些授权。Linux会自带一个数据库,在安装之前需要先卸载。mysql在安装后会有默认密码,先查看默认密码。mysql -uroot -p 敲回车。通过网盘分享的文件:mysql。进入MySQL修改密码校验规则。上传压缩包到上述目录进行解压。
2025-05-07 20:13:36
800
2
空空如也
虚拟机重启打不开,finalshell连接不上
2025-06-10
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅