- 博客(11)
- 收藏
- 关注
原创 【自记】HiveSQL和SQL在数据类型定义上的差异
Hive 提供专属函数处理复杂类型(如 explode(ARRAY) 展开数组、map_keys(MAP) 提取键),标准 SQL 需手动处理或借助 JSON 函数模拟。Hive 类型需配合 ROW FORMAT、SERDE(序列化 / 反序列化)使用,标准 SQL 无此概念(依赖数据库存储引擎)。简单说,Hive SQL 为大数据场景扩展了复杂类型,基础类型在细节(如字符串比较、时区)上有差异,写代码时需根据场景适配。场景 2:迁移传统 SQL 脚本到 Hive → 需检查复杂类型、隐式转换逻辑。
2025-06-12 16:19:51
176
原创 【自记】DataGrip显示“当前架构未内省”的含义以及内省后会发生什么
在 DataGrip 中,当连接 Hive(或其他数据库)出现 “当前架构未内省(Current schema is not introspected)” 提示,本质是 DataGrip 还没主动去扫描、解析数据库的元数据信息 ,比如数据库有哪些表、表结构字段、视图、函数等内容。把扫到的元数据同步到 DataGrip 的 UI 里,你能在左侧的数据库导航栏看到数据库下的表、视图等对象,表结构面板能看到字段、分区键等详情,方便你写 SQL、浏览和管理数据。一、“当前架构未内省” 提示含义。
2025-06-12 15:46:07
202
原创 【自记】为什么String和数组都是引用类型,但String可以直接输出内容,而数组直接输出只能是引用地址呢?
数组是 Java 内置的对象,但数组的类(比如 int[] 的类是 [I,String[] 的类是 [Ljava.lang.String;getClass().getName():获取类的全限定名(数组的类名格式特殊,比如 [Ljava.lang.String;当用 System.out.println(对象) 时,底层会调用 对象的 toString() 方法,将返回的字符串输出。因此,当打印 String 对象时,调用的是重写后的 toString(),直接输出字符串的实际内容。
2025-06-11 15:19:33
254
原创 【自记】光盘挂载方法配置本地Yum源(错误整合版)
• `Centos-Media.repo`配置问题:虽然你修改了`enabled=1`,但可能存在其他配置错误,或者该文件没有正确指向光盘中的软件包路径。你在配置本地 Yum 源时,Yum 尝试从本地光盘镜像(`file:///media/cdrom`)中获取软件包,但未能成功。• 光盘镜像未正确挂载:虽然你执行了`mount /dev/cdrom /media/cdrom`,但光盘可能未正确挂载,或者挂载路径不正确。重点检查`Packages/`和`repodata/`目录是否存在。
2025-02-18 15:29:22
800
1
原创 【自记】Vault工作原理与使用操作说明
解封后,Vault 已经可以运行,但默认情况下,它并没有配置任何存储机密信息的后端(Secret Engine)或认证方式(Auth Method)。应用程序可以将数据发送给 Vault 进行加密,Vault 使用其管理的密钥对数据进行加密,并返回加密后的结果。动态 Secret 是 Vault 的一个重要功能,它允许你动态生成临时的、具有时间限制的凭证,从而增强安全性。启动后,Vault 会读取配置文件(如 `/etc/vault.d/vault.hcl`)来确定其行为。
2025-02-18 14:21:09
1337
原创 【自记】Vault保姆级安装部署教程,开源测试+企业生产版。
(若测试——开源版 非生产环境 非高可用 到第八步即可)(企业版需收费)确保 Linux 系统为受支持的版本(如 Ubuntu、CentOS、RHEL 等)。确保具备 root 或 sudo 权限。确保服务器能访问互联网以下载 Vault 和相关依赖。打开浏览器,访问 HashiCorp Vault 下载页面。在下载页面中,选择你需要的 Vault 版本(如最新稳定版)。选择适合你操作系统的平台(如 Linux、Windows、macOS)。点击下载链接,直接下载 Vault 的二进制文件。
2025-02-17 14:06:45
1396
原创 【自记】HDFS高可用:手动、自动故障转移的区别
在分布式文件系统(HDFS)的高可用性(HA)配置中,手动故障转移与自动故障转移是两种关键的机制,它们在应用场景、优缺点以及配置步骤上存在显著差异。自动故障转移是指系统自动检测到活动 NameNode 故障后,自动触发故障转移,将备用 NameNode 切换为活动状态。• 依赖 ZooKeeper:如果 ZooKeeper 集群出现问题,自动故障转移功能将失效,可能影响系统的高可用性。• 快速响应:能够在检测到故障后自动触发故障转移,响应时间短,提高了系统的可用性。
2025-02-13 16:33:37
447
原创 【自记】无法找到 MapReduce 作业的主类 MRAppMaster ,导致任务无法正常启动。解决方案
在运行 Hadoop MapReduce 任务时,遇到了以下错误:``````该错误表明 Hadoop 无法找到 MapReduce 作业的主类`MRAppMaster`,导致任务无法正常启动。
2025-02-13 10:36:44
984
原创 【自记】hadoop资源管理分配与队列的作用
在 Hadoop YARN(Yet Another Resource Negotiator)中,“管理和分配资源”是一个核心概念,它涉及到如何高效地利用集群中的计算资源(如 CPU、内存、磁盘等),以支持多个应用程序的运行。以下是“管理和分配资源”在 YARN 中的具体含义和实现方式:“管理资源”指的是对集群中所有节点的资源进行监控、跟踪和维护,确保资源的合理使用和高效分配。YARN 的 ResourceManager 负责这一部分的工作,具体包括:资源监控:ResourceManager 通过与各个节点上
2025-02-12 10:29:26
662
原创 【自记】MapReduce切片、分区、分组、排序、序列化和反序列化等操作的执行顺序和详细说明
切片(Splitting):输入文件被分割成多个InputSplit。读取数据从每个InputSplit中逐行读取数据。Map 阶段setup()方法初始化资源。map()方法处理每一行数据,生成中间结果。cleanup()方法清理资源。分区(Partitioning)根据键将数据分配到不同的分区。局部排序Mapper的输出在本地按键排序。序列化(Serialization)Mapper的输出被序列化为字节流。Shuffle 阶段数据传输到Reducer。归并排序。
2025-02-11 17:15:10
983
原创 【自记】reduce() setup() cleanup ()三个方法在Mapper和Reducer中的作用
在 Hadoop MapReduce 框架中,Mapper和Reducersetup()map()reduce()和cleanup()。这些方法分别在任务的不同阶段被调用,用于初始化、处理数据和清理资源。虽然Mapper和Reducer的这些方法在功能上类似,但它们的上下文和具体用途有所不同。
2025-02-11 17:07:25
451
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人