六月大数据-优快云博客

原创有手就行的Redis8.0单机版本安装教程

Redis是用C语言开发的一个开源的高性能键值对（key-value）数据库。C语言开发的软件，一般安装都需要编译。一般安装都比较复杂。redis官方只给了linux版本的下载，并没有windows，网络上流传的windows版本是微软团队写的。#以8.0.1为例：#当前报错是无法安装需要额外库#如果 EPEL 未启用，执行以下命令启用#进入到刚刚解压的那个文件中#make 编译的意思#默认安装到了 /usr/local/bin 目录下。

2025-12-08 18:52:54 590

原创 Redis主从模式、哨兵模式、集群模式的搭建

需先参考我另一篇文章，搭建好Redis单机模式成功启动并使用再进行以下模式的搭建。我的搭建都是基于一台服务器的，多台服务器只是把文件放在不同的服务器上，所有的端口也不需要进行修改。

2025-12-08 18:52:25 686

原创 Spark多维聚合函数解析

允许手动指定需要聚合的维度组合，只生成你明确需要的汇总结果，灵活性最高。想要自定义汇总层级（避免冗余）→ 用；维度有明确层级关系（如自上而下钻取）→ 用ROLLUP；需要所有维度组合的灵活分析（如多维度报表）→ 用CUBE；区分NULL来源 → 搭配GROUPING()函数。这三个函数本质是 Hive 对 “多维度聚合” 的语法糖，替代了传统的UNION ALL拼接，不仅代码更简洁，性能也更优（Hive 会优化执行计划，避免重复扫描数据）。

2025-12-01 17:03:44 566

原创 Flink中窗口的真正关闭时间

在 Flink 窗口计算中，由和，之后到达的该窗口数据会被丢弃（或通过侧输出收集）。

2025-12-01 17:02:35 1572

原创 HBase单机或伪分布的快速搭建以及简单使用

仅包含 HBase 的客户端相关库和配置，适用于只需要连接 HBase 集群进行数据读写操作的客户端机器，不需要在该机器上运行 HBase 服务（如 RegionServer、Master 等）。如果你想删除表或者改变表的设置（删除列族、修改列族属性、重命名表等），以及一些其他的场景，首先你需要禁用表。，包含 HBase 的所有源代码文件，主要用于开发者进行代码调试、二次开发或研究 HBase 底层实现，一般用户安装 HBase 不需要这个包。row1代表行键（RowKey），是这一行数据的唯一标识。

2025-11-04 08:12:31 902

原创深入解析 Spark 数据读取与 Hive 数据来源：构建高效数据处理链路

在大数据技术生态中，Spark 作为核心计算引擎，Hive 作为数据仓库工具，二者协同支撑着海量数据的处理与存储工作。其中，Spark 的数据读取能力直接决定了计算效率的起点，Hive 的数据来源则影响着数据仓库的完整性与可用性。本文将系统梳理 Spark Core、Spark SQL 的数据读取方式，以及 Hive 中数据的主要来源，为大数据从业者构建高效数据处理链路提供参考。。

2025-11-04 08:12:16 1013

原创 Hive Join 怎么选？FULL/CROSS/Semi 与 Map/Shuffle/SMB 的实战指南

Hive提供了多种连接(Join)方式，主要分为标准SQL连接类型和执行机制优化类型。标准类型包括FULL JOIN(全连接)、CROSS JOIN(笛卡尔积)和SEMI JOIN(半连接)。优化类型包含MapJoin(内存小表)、ShuffleJoin(常规连接)和SMBJoin(分桶排序连接)，其中MapJoin和SMBJoin性能最优。实际应用中需根据表大小、是否分桶等特性选择合适方式，优先考虑MapJoin或SMBJoin以提升查询效率，避免大表全连接导致的性能问题。

2025-11-03 09:04:38 672

原创搞定 MySQL 优化：告别慢查询，业务效率翻番

MySQL优化是一个系统工程，核心目标为减少响应时间、提升并发能力和降低资源消耗。主要优化方向包括：查询优化：避免全表扫描，合理使用索引，优化条件表达式和关联查询；表结构优化：遵循数据库范式，选择合适数据类型，拆分大表；索引优化：根据场景选择索引类型，遵循最左前缀原则，避免过度索引；服务器配置：调整内存、并发和I/O参数以适配硬件；架构优化：读写分离、分库分表等全局策略。优化需结合监控工具持续进行，从SQL、索引等低成本优化入手，逐步推进架构调整。

2025-11-03 09:04:30 1026

原创 PySpark本地开发环境的一些问题以及解决方法

不影响最终结果，但是红彤彤的看着不舒服。

2025-10-30 12:04:41 561

原创 HBase 入门：分布式列存储数据库快速上手

，允许动态扩展列结构，非常适合业务需求频繁变化的大数据场景。

2025-10-30 11:58:55 473

原创不用再手动改日期！Kettle 中实现前一天日期自动获取 + 变量传递的方法

我们在数据处理的自动化流程中，精准获取并传递特定时间（如前一天日期）是许多任务的基础环节。

2025-10-09 16:32:37 393

原创进阶必看！ZooKeeper 选举算法：原理、优化与常见问题，掌握分布式协调核心技术

用 “数据完整性（zxid）” 和 “身份标识（myid）” 作为硬指标，让所有节点通过一次集中比较，快速选出大家都认可的 “数据最完整” 的节点当 Leader。这个过程既保证了 Leader 的合法性（数据最新），又通过优化流程实现了高效选举，是 ZooKeeper 在分布式环境下保持一致性的核心保障。

2025-09-16 19:31:08 567

原创告别 “多副本” 依赖！HDFS 纠删码（EC）技术深度解析：如何用更少空间扛住数据丢失？

HDFS 纠删码技术是 HDFS 存储架构的重要优化，其核心逻辑是用 “编码计算” 替代 “数据复制”，在不降低可靠性的前提下，将存储利用率从 33%（3 副本）提升至 60%-70%（主流 RS 策略），大幅降低海量冷数据的存储成本。热数据用副本保证性能，冷数据用 EC 降低成本，共同构成 HDFS 高效、可靠的存储体系。

2025-09-16 19:02:51 1295

原创将带有fastjson包的Java项目放在hadoop中运行报错

所以在我们想要将其在hadoop上运行时就会报找不到包错误。

2025-09-15 19:56:34 1180

原创 Linux中逻辑块与物理块的区分

物理块大小：硬件或格式化后固定，软件无法随意修改硬件原生限制（如 SSD 的 “物理页” 通常是 128KB/256KB，不可改）；文件系统格式化时指定（如 ext4 默认 4KB，xfs 默认 512B，一旦格式化完成，该分区的物理块大小固定，无法通过软件临时修改）。逻辑块大小：软件 / 工具可灵活定义，甚至同一工具可切换逻辑块是软件 “约定” 的单位，可按需调整，无需依赖硬件。df命令（查看磁盘空间）默认逻辑块可能是 1KB，但可通过df -B 4K。

2025-09-02 10:55:34 1064 1

原创 Linux系统中inode和block详解

在 Linux 文件系统中，和是管理文件数据的两大核心组件，二者分工明确又紧密协作：inode 负责存储文件的 “元数据”（描述信息），block 负责存储文件的 “实际内容”。inode号即索引节点号，系统或程序通过 inode 号寻找正确的文件数据块。Linux操作系统中，硬盘的最小存储单位为扇区，每个扇区大小为512字节。而操作系统在读取硬盘数据的时候，一次性最小读取一个块（block），默认一个block大小为4096k，即8个扇区。

2025-09-01 19:27:13 599

原创运行hive sql时报错Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask

第三行代码用于设置单个查询可以创建的最大动态分区数为100000。如果查询结果中分区字段的值很多（如按天分区，数据跨越多天），需要增加该值以避免报错。第四行代码用于设置单个节点（Node）可以创建的最大动态分区数为10000。如果单个节点处理的数据量较大，需要增加该值以避免报错。第二行代码用于设置动态分区的非严格模式，允许所有分区字段都是动态的（即分区字段的值来自查询结果）。这些配置可以帮助优化动态分区插入操作，避免因分区数量过多而导致的错误。根据实际数据量和集群规模，可以适当调整这些参数的值。

2025-03-14 11:05:19 962

liuyue666aaa的博客