自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 有手就行的Redis8.0单机版本安装教程

Redis是用C语言开发的一个开源的高性能键值对(key-value)数据库。C语言开发的软件,一般安装都需要编译。一般安装都比较复杂。redis官方只给了linux版本的下载,并没有windows,网络上流传的windows版本是微软团队写的。#以8.0.1为例:#当前报错是无法安装需要额外库#如果 EPEL 未启用,执行以下命令启用#进入到刚刚解压的那个文件中#make 编译的意思#默认安装到了 /usr/local/bin 目录下。

2025-12-08 18:52:54 590

原创 Redis主从模式、哨兵模式、集群模式的搭建

需先参考我另一篇文章,搭建好Redis单机模式成功启动并使用再进行以下模式的搭建。我的搭建都是基于一台服务器的,多台服务器只是把文件放在不同的服务器上,所有的端口也不需要进行修改。

2025-12-08 18:52:25 686

原创 Spark多维聚合函数解析

允许手动指定需要聚合的维度组合,只生成你明确需要的汇总结果,灵活性最高。想要自定义汇总层级(避免冗余)→ 用;维度有明确层级关系(如自上而下钻取)→ 用ROLLUP;需要所有维度组合的灵活分析(如多维度报表)→ 用CUBE;区分NULL来源 → 搭配GROUPING()函数。这三个函数本质是 Hive 对 “多维度聚合” 的语法糖,替代了传统的UNION ALL拼接,不仅代码更简洁,性能也更优(Hive 会优化执行计划,避免重复扫描数据)。

2025-12-01 17:03:44 566

原创 Flink中窗口的真正关闭时间

在 Flink 窗口计算中,由和,之后到达的该窗口数据会被丢弃(或通过侧输出收集)。

2025-12-01 17:02:35 1572

原创 HBase单机或伪分布的快速搭建以及简单使用

仅包含 HBase 的客户端相关库和配置,适用于只需要连接 HBase 集群进行数据读写操作的客户端机器,不需要在该机器上运行 HBase 服务(如 RegionServer、Master 等)。如果你想删除表或者改变表的设置(删除列族、修改列族属性、重命名表等),以及一些其他的场景,首先你需要禁用表。,包含 HBase 的所有源代码文件,主要用于开发者进行代码调试、二次开发或研究 HBase 底层实现,一般用户安装 HBase 不需要这个包。row1代表行键(RowKey),是这一行数据的唯一标识。

2025-11-04 08:12:31 902

原创 深入解析 Spark 数据读取与 Hive 数据来源:构建高效数据处理链路

在大数据技术生态中,Spark 作为核心计算引擎,Hive 作为数据仓库工具,二者协同支撑着海量数据的处理与存储工作。其中,Spark 的数据读取能力直接决定了计算效率的起点,Hive 的数据来源则影响着数据仓库的完整性与可用性。本文将系统梳理 Spark Core、Spark SQL 的数据读取方式,以及 Hive 中数据的主要来源,为大数据从业者构建高效数据处理链路提供参考。​。

2025-11-04 08:12:16 1013

原创 Hive Join 怎么选?FULL/CROSS/Semi 与 Map/Shuffle/SMB 的实战指南

Hive提供了多种连接(Join)方式,主要分为标准SQL连接类型和执行机制优化类型。标准类型包括FULL JOIN(全连接)、CROSS JOIN(笛卡尔积)和SEMI JOIN(半连接)。优化类型包含MapJoin(内存小表)、ShuffleJoin(常规连接)和SMBJoin(分桶排序连接),其中MapJoin和SMBJoin性能最优。实际应用中需根据表大小、是否分桶等特性选择合适方式,优先考虑MapJoin或SMBJoin以提升查询效率,避免大表全连接导致的性能问题。

2025-11-03 09:04:38 672

原创 搞定 MySQL 优化:告别慢查询,业务效率翻番

MySQL优化是一个系统工程,核心目标为减少响应时间、提升并发能力和降低资源消耗。主要优化方向包括: 查询优化:避免全表扫描,合理使用索引,优化条件表达式和关联查询; 表结构优化:遵循数据库范式,选择合适数据类型,拆分大表; 索引优化:根据场景选择索引类型,遵循最左前缀原则,避免过度索引; 服务器配置:调整内存、并发和I/O参数以适配硬件; 架构优化:读写分离、分库分表等全局策略。优化需结合监控工具持续进行,从SQL、索引等低成本优化入手,逐步推进架构调整。

2025-11-03 09:04:30 1026

原创 PySpark本地开发环境的一些问题以及解决方法

不影响最终结果,但是红彤彤的看着不舒服。

2025-10-30 12:04:41 561

原创 HBase 入门:分布式列存储数据库快速上手

,允许动态扩展列结构,非常适合业务需求频繁变化的大数据场景。

2025-10-30 11:58:55 473

原创 不用再手动改日期!Kettle 中实现前一天日期自动获取 + 变量传递的方法

我们在数据处理的自动化流程中,精准获取并传递特定时间(如前一天日期)是许多任务的基础环节。

2025-10-09 16:32:37 393

原创 进阶必看!ZooKeeper 选举算法:原理、优化与常见问题,掌握分布式协调核心技术

用 “数据完整性(zxid)” 和 “身份标识(myid)” 作为硬指标,让所有节点通过一次集中比较,快速选出大家都认可的 “数据最完整” 的节点当 Leader。这个过程既保证了 Leader 的合法性(数据最新),又通过优化流程实现了高效选举,是 ZooKeeper 在分布式环境下保持一致性的核心保障。

2025-09-16 19:31:08 567

原创 告别 “多副本” 依赖!HDFS 纠删码(EC)技术深度解析:如何用更少空间扛住数据丢失?

HDFS 纠删码技术是 HDFS 存储架构的重要优化,其核心逻辑是用 “编码计算” 替代 “数据复制”,在不降低可靠性的前提下,将存储利用率从 33%(3 副本)提升至 60%-70%(主流 RS 策略),大幅降低海量冷数据的存储成本。热数据用副本保证性能,冷数据用 EC 降低成本,共同构成 HDFS 高效、可靠的存储体系。

2025-09-16 19:02:51 1295

原创 将带有fastjson包的Java项目放在hadoop中运行报错

所以在我们想要将其在hadoop上运行时就会报找不到包错误。

2025-09-15 19:56:34 1180

原创 Linux中逻辑块与物理块的区分

物理块大小:硬件或格式化后固定,软件无法随意修改硬件原生限制(如 SSD 的 “物理页” 通常是 128KB/256KB,不可改);文件系统格式化时指定(如 ext4 默认 4KB,xfs 默认 512B,一旦格式化完成,该分区的物理块大小固定,无法通过软件临时修改)。逻辑块大小:软件 / 工具可灵活定义,甚至同一工具可切换逻辑块是软件 “约定” 的单位,可按需调整,无需依赖硬件。df命令(查看磁盘空间)默认逻辑块可能是 1KB,但可通过df -B 4K。

2025-09-02 10:55:34 1064 1

原创 Linux系统中inode和block详解

在 Linux 文件系统中,和是管理文件数据的两大核心组件,二者分工明确又紧密协作:inode 负责存储文件的 “元数据”(描述信息),block 负责存储文件的 “实际内容”。inode号即索引节点号,系统或程序通过 inode 号寻找正确的文件数据块。Linux操作系统中,硬盘的最小存储单位为扇区,每个扇区大小为512字节。而操作系统在读取硬盘数据的时候,一次性最小读取一个块(block),默认一个block大小为4096k,即8个扇区。

2025-09-01 19:27:13 599

原创 运行hive sql时报错Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask

第三行代码用于设置单个查询可以创建的最大动态分区数为100000。如果查询结果中分区字段的值很多(如按天分区,数据跨越多天),需要增加该值以避免报错。第四行代码用于设置单个节点(Node)可以创建的最大动态分区数为10000。如果单个节点处理的数据量较大,需要增加该值以避免报错。第二行代码用于设置动态分区的非严格模式,允许所有分区字段都是动态的(即分区字段的值来自查询结果)。这些配置可以帮助优化动态分区插入操作,避免因分区数量过多而导致的错误。根据实际数据量和集群规模,可以适当调整这些参数的值。

2025-03-14 11:05:19 962

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除