自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 kafka集群启动问题——Cannot allocate memory

kafka集群的02,03不启动,日志中报错,这是内存不足,需要在启动不起来的节点上修改kafka启动脚本中KAFKA_HEAP_OPTS的值。KAFKA_HEAP_OPTS 是 Kafka 启动脚本中用于设置 Kafka 进程堆内存大小的环境变量。这个变量默认1G,修改为521M,完美启动!

2025-08-06 20:36:16 184

原创 查看被占端口使用情况

各个工具集开启多个后往往会出现端口被占用的情况,在这个分享一下如何查看被占端口的情况。然后对比修改端口号即可正常运行!

2025-08-06 09:16:15 272

原创 记录牛客SQL

我们需要一个顾客 ID 列表,其中包含他们已订购的总金额。OrderItems表代表订单信息,OrderItems表有订单号:order_num和商品售出价格:item_price、商品数量:quantity。Orders表订单号:order_num、顾客id:cust_id【问题】编写 SQL语句,返回顾客 ID(Orders 表中的 cust_id),并使用子查询返回total_ordered 以便返回每个顾客的订单总金额,将结果按金额从大到小排序。

2025-07-08 19:39:38 384

原创 数据库设计基石:三大范式详解与实战应用指南

第一范式(1 NF):字段不可再拆分。第二范式(2 NF):表中任意一个主键或任意一组联合主键,可以确定除该主键外的所有的非主键值。第三范式(3 NF):在任一主键都可以确定所有非主键字段值的情况下,不能存在某非主键字段 A 可以获取 某非主键字段 B。

2025-06-08 23:53:18 1567

原创 问题记录:No enum constant com.alibaba.datax.plugin.unstructuredstorage.reader.UnstructuredStorageReader

现总结datax与hive,mysql,oracle间的数据类型映射。datax从hive导数据到mysql时报错。datax中数据类型转化异常。把类型修改正确就可以导出!

2025-06-06 18:35:17 400

原创 帆软初级FCA-FineBI考试回顾

组件复用是指在一个仪表板中制作了一个组件,可以重复使用到同一分析主题中另外一个仪表板中,即如果同一个分析中的不同仪表板用到了同一个组件,且其设置过程也一样,那么,为了方便, 可以直接使用组件复用,无需进行重复设置,FineBI是支持同一分析主题中不同仪表板组件复用的。根据数据:Sample-Superstore-Subset-Excel.xlsx(数据下载),分析:如果 2013 年的销售额预计在接下来的一年里会提升 50%,那么在 2014 年,“Consumer”细分市场的预计总销售额会 是多少?

2025-06-05 19:06:52 1425

原创 解决DataX报错UnstructuredStorageReader-03的方法

DataX作业运行时出现参数不合法报错,提示仅支持单字符切分但配置了"/01"。问题根源是Hive表默认使用ASCII码\001(^A)作为分隔符,而在JSON配置中需使用Unicode转义格式"\u0001"表示。解决方案包括:1)将分隔符改为"\u0001";2)对于ORC/Parquet格式无需配置分隔符。文中还总结了JSON中常见分隔符的表示方式,如制表符用"\t"、逗号直接使用","等。该问题是由于

2025-06-03 19:10:42 442

原创 Hive中的数据倾斜原因及解决方法

数据倾斜表现为数据分布不均导致部分任务执行缓慢。主要原因及解决方案包括:1) 数据类型不一致(统一字段类型);2) 大量null值(异常值过滤/非异常值随机赋值);3) 单表group by倾斜(启用map端聚合或增加reduce数量);4) 多表join倾斜(设置拆分阈值、使用MapJoin或SMB Join)。通过数据均匀分布和参数优化可有效解决倾斜问题。

2025-05-28 20:52:27 871

原创 Hive中的by家族

本文介绍了Hive中的几种排序和分区方式:1)order by用于全局排序但效率较低;2)sort by在每个reduce内部排序;3)distribute by按字段分区处理;4)cluster by在分区字段与排序字段相同时使用。此外还说明了建表时使用的分区(partitioned by)和分桶(clustered by)语法,分区是按目录划分数据集,分桶则是通过哈希算法将数据分成小文件。这些方法各有适用场景,可根据数据规模和查询需求选择合适的排序分区策略。

2025-05-26 19:56:32 566

原创 cannot recognize input near ‘<EOF>‘ ‘<EOF>‘ ‘<EOF>‘ in subquery source

在使用datagrip写hive时出现。的错误,这是不能识别子查询。给每个子查询都起别名。

2025-05-25 14:35:56 562

原创 Hadoop-启用HDFS回收站功能(防止误删数据)

HDFS的回收站(Trash)是一个用于临时存放被删除文件的机制,类似于操作系统中的回收站。它允许用户在误删文件后恢复数据,避免因误操作导致永久丢失。

2025-05-21 09:18:30 961

原创 Hadoop集群完全分布式搭建(保姆级教程)

此次搭建实在伪分布的基础上进行完全分布式搭建,hadoop版本是3.3.1,安装目录是/opt/installs/hadoop。

2025-05-13 12:52:01 1469

原创 shell三剑客之grep

grep 是一个功能强大、灵活且高效的文本搜索工具,几乎适用于所有需要文本处理的场景。无论是开发、运维还是数据分析,掌握 grep 的使用方法都能显著提升工作效率。希望这篇文章能帮助你快速了解和上手使用 grep!

2025-05-10 17:21:04 441

原创 Shell脚本之$符号大家族

本文介绍了Bash脚本中的参数处理、变量操作、命令替换和算术运算。首先,通过$0、$n、$#、$*和$@等特殊变量,可以获取脚本文件名、参数及其数量。其次,变量操作部分展示了如何定义和使用变量,以及通过${}进行字符串处理。命令替换部分比较了$()和``的用法,推荐使用$()进行嵌套操作。最后,算术运算部分介绍了$[]、$(())和(())的使用场景,特别是(())在条件表达式中的应用。这些技巧有助于编写更高效和灵活的Bash脚本。

2025-05-10 16:16:34 853

原创 Linux安装JDK8(保姆级教程)

jdk安装包jdk:通过网盘分享的文件:jdk8链接: https://pan.baidu.com/s/1Jf3rnqvdQmITfVdqF9G2Tw?pwd=v2vn 提取码: v2vn。

2025-05-08 20:43:10 864

原创 Linux安装MySQL(CentOS 7)

链接: https://pan.baidu.com/s/1U4qDLRl0l0U_a4t3MuMBhA?pwd=nddj 提取码: nddj。通常情况下,mysql默认不共享远程连接的,只能本地localhost连接。这个时候我们就需要在mysql中做一些授权。Linux会自带一个数据库,在安装之前需要先卸载。mysql在安装后会有默认密码,先查看默认密码。mysql -uroot -p 敲回车。通过网盘分享的文件:mysql。进入MySQL修改密码校验规则。上传压缩包到上述目录进行解压。

2025-05-07 20:13:36 800 2

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除