码农笔记214-优快云博客

原创【自记】HiveSQL和SQL在数据类型定义上的差异

Hive 提供专属函数处理复杂类型（如 explode(ARRAY) 展开数组、map_keys(MAP) 提取键），标准 SQL 需手动处理或借助 JSON 函数模拟。Hive 类型需配合 ROW FORMAT、SERDE（序列化 / 反序列化）使用，标准 SQL 无此概念（依赖数据库存储引擎）。简单说，Hive SQL 为大数据场景扩展了复杂类型，基础类型在细节（如字符串比较、时区）上有差异，写代码时需根据场景适配。场景 2：迁移传统 SQL 脚本到 Hive → 需检查复杂类型、隐式转换逻辑。

2025-06-12 16:19:51 176

原创【自记】DataGrip显示“当前架构未内省”的含义以及内省后会发生什么

在 DataGrip 中，当连接 Hive（或其他数据库）出现 “当前架构未内省（Current schema is not introspected）” 提示，本质是 DataGrip 还没主动去扫描、解析数据库的元数据信息，比如数据库有哪些表、表结构字段、视图、函数等内容。把扫到的元数据同步到 DataGrip 的 UI 里，你能在左侧的数据库导航栏看到数据库下的表、视图等对象，表结构面板能看到字段、分区键等详情，方便你写 SQL、浏览和管理数据。一、“当前架构未内省” 提示含义。

2025-06-12 15:46:07 202

原创【自记】为什么String和数组都是引用类型，但String可以直接输出内容，而数组直接输出只能是引用地址呢？

数组是 Java 内置的对象，但数组的类（比如 int[] 的类是 [I，String[] 的类是 [Ljava.lang.String;getClass().getName()：获取类的全限定名（数组的类名格式特殊，比如 [Ljava.lang.String;当用 System.out.println(对象) 时，底层会调用对象的 toString() 方法，将返回的字符串输出。因此，当打印 String 对象时，调用的是重写后的 toString()，直接输出字符串的实际内容。

2025-06-11 15:19:33 254

原创【自记】光盘挂载方法配置本地Yum源（错误整合版）

• `Centos-Media.repo`配置问题：虽然你修改了`enabled=1`，但可能存在其他配置错误，或者该文件没有正确指向光盘中的软件包路径。你在配置本地 Yum 源时，Yum 尝试从本地光盘镜像（`file:///media/cdrom`）中获取软件包，但未能成功。• 光盘镜像未正确挂载：虽然你执行了`mount /dev/cdrom /media/cdrom`，但光盘可能未正确挂载，或者挂载路径不正确。重点检查`Packages/`和`repodata/`目录是否存在。

2025-02-18 15:29:22 800 1

原创【自记】Vault工作原理与使用操作说明

解封后，Vault 已经可以运行，但默认情况下，它并没有配置任何存储机密信息的后端（Secret Engine）或认证方式（Auth Method）。应用程序可以将数据发送给 Vault 进行加密，Vault 使用其管理的密钥对数据进行加密，并返回加密后的结果。动态 Secret 是 Vault 的一个重要功能，它允许你动态生成临时的、具有时间限制的凭证，从而增强安全性。启动后，Vault 会读取配置文件（如 `/etc/vault.d/vault.hcl`）来确定其行为。

2025-02-18 14:21:09 1337

原创【自记】Vault保姆级安装部署教程，开源测试+企业生产版。

（若测试——开源版非生产环境非高可用到第八步即可）（企业版需收费）确保 Linux 系统为受支持的版本（如 Ubuntu、CentOS、RHEL 等）。确保具备 root 或 sudo 权限。确保服务器能访问互联网以下载 Vault 和相关依赖。打开浏览器，访问 HashiCorp Vault 下载页面。在下载页面中，选择你需要的 Vault 版本（如最新稳定版）。选择适合你操作系统的平台（如 Linux、Windows、macOS）。点击下载链接，直接下载 Vault 的二进制文件。

2025-02-17 14:06:45 1396

原创【自记】HDFS高可用：手动、自动故障转移的区别

在分布式文件系统（HDFS）的高可用性（HA）配置中，手动故障转移与自动故障转移是两种关键的机制，它们在应用场景、优缺点以及配置步骤上存在显著差异。自动故障转移是指系统自动检测到活动 NameNode 故障后，自动触发故障转移，将备用 NameNode 切换为活动状态。• 依赖 ZooKeeper：如果 ZooKeeper 集群出现问题，自动故障转移功能将失效，可能影响系统的高可用性。• 快速响应：能够在检测到故障后自动触发故障转移，响应时间短，提高了系统的可用性。

2025-02-13 16:33:37 447

原创【自记】无法找到 MapReduce 作业的主类 MRAppMaster ，导致任务无法正常启动。解决方案

在运行 Hadoop MapReduce 任务时，遇到了以下错误：``````该错误表明 Hadoop 无法找到 MapReduce 作业的主类`MRAppMaster`，导致任务无法正常启动。

2025-02-13 10:36:44 984

原创【自记】hadoop资源管理分配与队列的作用

在 Hadoop YARN（Yet Another Resource Negotiator）中，“管理和分配资源”是一个核心概念，它涉及到如何高效地利用集群中的计算资源（如 CPU、内存、磁盘等），以支持多个应用程序的运行。以下是“管理和分配资源”在 YARN 中的具体含义和实现方式：“管理资源”指的是对集群中所有节点的资源进行监控、跟踪和维护，确保资源的合理使用和高效分配。YARN 的 ResourceManager 负责这一部分的工作，具体包括：资源监控：ResourceManager 通过与各个节点上

2025-02-12 10:29:26 662

原创【自记】MapReduce切片、分区、分组、排序、序列化和反序列化等操作的执行顺序和详细说明

切片（Splitting）：输入文件被分割成多个InputSplit。读取数据从每个InputSplit中逐行读取数据。Map 阶段setup()方法初始化资源。map()方法处理每一行数据，生成中间结果。cleanup()方法清理资源。分区（Partitioning）根据键将数据分配到不同的分区。局部排序Mapper的输出在本地按键排序。序列化（Serialization）Mapper的输出被序列化为字节流。Shuffle 阶段数据传输到Reducer。归并排序。

2025-02-11 17:15:10 983