- 博客(17)
- 收藏
- 关注
原创 有手就行的Redis8.0单机版本安装教程
Redis是用C语言开发的一个开源的高性能键值对(key-value)数据库。C语言开发的软件,一般安装都需要编译。一般安装都比较复杂。redis官方只给了linux版本的下载,并没有windows,网络上流传的windows版本是微软团队写的。#以8.0.1为例:#当前报错是无法安装需要额外库#如果 EPEL 未启用,执行以下命令启用#进入到刚刚解压的那个文件中#make 编译的意思#默认安装到了 /usr/local/bin 目录下。
2025-12-08 18:52:54
590
原创 Redis主从模式、哨兵模式、集群模式的搭建
需先参考我另一篇文章,搭建好Redis单机模式成功启动并使用再进行以下模式的搭建。我的搭建都是基于一台服务器的,多台服务器只是把文件放在不同的服务器上,所有的端口也不需要进行修改。
2025-12-08 18:52:25
686
原创 Spark多维聚合函数解析
允许手动指定需要聚合的维度组合,只生成你明确需要的汇总结果,灵活性最高。想要自定义汇总层级(避免冗余)→ 用;维度有明确层级关系(如自上而下钻取)→ 用ROLLUP;需要所有维度组合的灵活分析(如多维度报表)→ 用CUBE;区分NULL来源 → 搭配GROUPING()函数。这三个函数本质是 Hive 对 “多维度聚合” 的语法糖,替代了传统的UNION ALL拼接,不仅代码更简洁,性能也更优(Hive 会优化执行计划,避免重复扫描数据)。
2025-12-01 17:03:44
566
原创 HBase单机或伪分布的快速搭建以及简单使用
仅包含 HBase 的客户端相关库和配置,适用于只需要连接 HBase 集群进行数据读写操作的客户端机器,不需要在该机器上运行 HBase 服务(如 RegionServer、Master 等)。如果你想删除表或者改变表的设置(删除列族、修改列族属性、重命名表等),以及一些其他的场景,首先你需要禁用表。,包含 HBase 的所有源代码文件,主要用于开发者进行代码调试、二次开发或研究 HBase 底层实现,一般用户安装 HBase 不需要这个包。row1代表行键(RowKey),是这一行数据的唯一标识。
2025-11-04 08:12:31
902
原创 深入解析 Spark 数据读取与 Hive 数据来源:构建高效数据处理链路
在大数据技术生态中,Spark 作为核心计算引擎,Hive 作为数据仓库工具,二者协同支撑着海量数据的处理与存储工作。其中,Spark 的数据读取能力直接决定了计算效率的起点,Hive 的数据来源则影响着数据仓库的完整性与可用性。本文将系统梳理 Spark Core、Spark SQL 的数据读取方式,以及 Hive 中数据的主要来源,为大数据从业者构建高效数据处理链路提供参考。。
2025-11-04 08:12:16
1013
原创 Hive Join 怎么选?FULL/CROSS/Semi 与 Map/Shuffle/SMB 的实战指南
Hive提供了多种连接(Join)方式,主要分为标准SQL连接类型和执行机制优化类型。标准类型包括FULL JOIN(全连接)、CROSS JOIN(笛卡尔积)和SEMI JOIN(半连接)。优化类型包含MapJoin(内存小表)、ShuffleJoin(常规连接)和SMBJoin(分桶排序连接),其中MapJoin和SMBJoin性能最优。实际应用中需根据表大小、是否分桶等特性选择合适方式,优先考虑MapJoin或SMBJoin以提升查询效率,避免大表全连接导致的性能问题。
2025-11-03 09:04:38
672
原创 搞定 MySQL 优化:告别慢查询,业务效率翻番
MySQL优化是一个系统工程,核心目标为减少响应时间、提升并发能力和降低资源消耗。主要优化方向包括: 查询优化:避免全表扫描,合理使用索引,优化条件表达式和关联查询; 表结构优化:遵循数据库范式,选择合适数据类型,拆分大表; 索引优化:根据场景选择索引类型,遵循最左前缀原则,避免过度索引; 服务器配置:调整内存、并发和I/O参数以适配硬件; 架构优化:读写分离、分库分表等全局策略。优化需结合监控工具持续进行,从SQL、索引等低成本优化入手,逐步推进架构调整。
2025-11-03 09:04:30
1026
原创 不用再手动改日期!Kettle 中实现前一天日期自动获取 + 变量传递的方法
我们在数据处理的自动化流程中,精准获取并传递特定时间(如前一天日期)是许多任务的基础环节。
2025-10-09 16:32:37
393
原创 进阶必看!ZooKeeper 选举算法:原理、优化与常见问题,掌握分布式协调核心技术
用 “数据完整性(zxid)” 和 “身份标识(myid)” 作为硬指标,让所有节点通过一次集中比较,快速选出大家都认可的 “数据最完整” 的节点当 Leader。这个过程既保证了 Leader 的合法性(数据最新),又通过优化流程实现了高效选举,是 ZooKeeper 在分布式环境下保持一致性的核心保障。
2025-09-16 19:31:08
567
原创 告别 “多副本” 依赖!HDFS 纠删码(EC)技术深度解析:如何用更少空间扛住数据丢失?
HDFS 纠删码技术是 HDFS 存储架构的重要优化,其核心逻辑是用 “编码计算” 替代 “数据复制”,在不降低可靠性的前提下,将存储利用率从 33%(3 副本)提升至 60%-70%(主流 RS 策略),大幅降低海量冷数据的存储成本。热数据用副本保证性能,冷数据用 EC 降低成本,共同构成 HDFS 高效、可靠的存储体系。
2025-09-16 19:02:51
1295
原创 Linux中逻辑块与物理块的区分
物理块大小:硬件或格式化后固定,软件无法随意修改硬件原生限制(如 SSD 的 “物理页” 通常是 128KB/256KB,不可改);文件系统格式化时指定(如 ext4 默认 4KB,xfs 默认 512B,一旦格式化完成,该分区的物理块大小固定,无法通过软件临时修改)。逻辑块大小:软件 / 工具可灵活定义,甚至同一工具可切换逻辑块是软件 “约定” 的单位,可按需调整,无需依赖硬件。df命令(查看磁盘空间)默认逻辑块可能是 1KB,但可通过df -B 4K。
2025-09-02 10:55:34
1064
1
原创 Linux系统中inode和block详解
在 Linux 文件系统中,和是管理文件数据的两大核心组件,二者分工明确又紧密协作:inode 负责存储文件的 “元数据”(描述信息),block 负责存储文件的 “实际内容”。inode号即索引节点号,系统或程序通过 inode 号寻找正确的文件数据块。Linux操作系统中,硬盘的最小存储单位为扇区,每个扇区大小为512字节。而操作系统在读取硬盘数据的时候,一次性最小读取一个块(block),默认一个block大小为4096k,即8个扇区。
2025-09-01 19:27:13
599
原创 运行hive sql时报错Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask
第三行代码用于设置单个查询可以创建的最大动态分区数为100000。如果查询结果中分区字段的值很多(如按天分区,数据跨越多天),需要增加该值以避免报错。第四行代码用于设置单个节点(Node)可以创建的最大动态分区数为10000。如果单个节点处理的数据量较大,需要增加该值以避免报错。第二行代码用于设置动态分区的非严格模式,允许所有分区字段都是动态的(即分区字段的值来自查询结果)。这些配置可以帮助优化动态分区插入操作,避免因分区数量过多而导致的错误。根据实际数据量和集群规模,可以适当调整这些参数的值。
2025-03-14 11:05:19
962
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅