自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 人大金仓(KingBsaeES)详细入门指南

在数据库技术飞速发展的当下,国产数据库也在不断崛起并展现出强大的竞争力。人大金仓的 KingbaseES 便是其中的杰出代表,它承载着国内数据库研发的深厚底蕴与创新精神。本入门指南将全面且深入地为你揭开 KingbaseES 的神秘面纱,无论你是初涉数据库领域的新手,还是寻求新数据库解决方案的专业人士,都能从中获取到实用且系统的知识,帮助你快速上手并运用 KingbaseES。KingbaseES 是北京人大金仓信息技术股份有限公司精心打造的企业级关系型数据库管理系统。

2025-07-29 20:11:35 723

原创 Java 核心技术与框架实战十八问

整数类型用于存储整数数值,以二进制补码形式表示。浮点数类型用于存储带小数的数值,遵循 IEEE 754 标准。字符类型用于存储单个字符,采用 Unicode 编码(16 位无符号)。布尔类型用于表示逻辑值(真 / 假)。ArrayList基于动态数组实现的;长度是实际存储的元素个数,通过size()方法获取;初始默认容量是10(jdk8+);当数组长度大于容量时触发扩容,扩容为原来的1.5倍。HashMap基于哈希表(数组 + 链表 / 红黑树)实现,JDK 8+ 引入红黑树优化链表过长问题(当链表长度超过

2025-07-03 20:34:01 1108

原创 在 AI 工具海洋中掌舵:Cherry Studio 如何成为你的统一指挥中心

工具名称:Cherry Studio支持平台:Windows / macOS / Linux免费开源你可以在官网直接下载并安装Cherry Studio。下载安装Cherry Studio之后,你便可以在这一个工具中,配置和使用多个AI工具了!

2025-06-23 20:49:00 999

原创 从 0 到 Offer!大数据核心面试题全解析,答案精准拿捏面试官(Sqoop篇)

Sqoop 作为 Hadoop 生态中数据迁移的核心工具,是大数据工程师面试的高频考点。本文整理了最核心的面试题,采用 优快云 博客风格呈现,助力面试准备~怎么迁:MapReduce 并行 + 分块策略迁什么:NULL 值 / 增量数据处理迁得快:并行度 + 直接模式优化。

2025-06-22 23:37:32 912

原创 从 0 到 Offer!大数据核心面试题全解析,答案精准拿捏面试官(Flume篇)

Flume 核心围绕 “数据采集 - 缓冲 - 输出” 流程,高可用靠故障转移 / 负载均衡,数据不丢依赖事务 + 持久化 Channel,参数调优聚焦吞吐量与稳定性平衡,面试抓核心组件、事务、高可用这几个点,轻松应对!

2025-06-21 23:39:41 1198

原创 从 0 到 Offer!大数据核心面试题全解析,答案精准拿捏面试官(Hive篇)

Hive 的工作原理围绕数据的存储、查询处理和计算执行展开。​数据存储:Hive 将结构化数据映射到 HDFS 上存储,用户通过定义表结构(包括字段名、数据类型等),将实际存储在 HDFS 的数据文件与表关联起来。数据以文件形式存储,支持多种文件格式,不同格式在存储和查询性能上各有特点。​查询处理:当用户通过 Hive 命令行、Web UI 等接口提交 HiveQL 查询语句后,Hive 首先将语句发送给查询编译器。

2025-06-20 20:34:54 528

原创 从 0 到 Offer!大数据核心面试题全解析,答案精准拿捏面试官(hadoop篇)

Hadoop 是一个开源的分布式系统基础架构,用于存储和处理大规模数据集。它主要包含 HDFS(Hadoop Distributed File System)分布式文件系统、MapReduce 分布式计算框架以及 YARN(Yet Another Resource Negotiator)资源管理器。HDFS 负责数据的分布式存储,将大文件分割成多个数据块存储在不同节点上;MapReduce 用于分布式并行处理数据;YARN 则负责集群资源的管理和调度,为不同的应用程序分配计算资源。

2025-06-19 13:29:40 1556

原创 探秘 Hive 的五大存储格式:性能与效率的终极对决

通过对 Hive 五大存储格式的深入探秘,我们可以看到,每种存储格式都有其独特的优势和适用场景。在实际应用中,我们需要根据具体的业务需求、数据特点和性能要求来选择合适的存储格式。​如果数据量较小、对查询性能要求不高,文本格式可以满足基本需求;对于需要排序和一定压缩能力的场景,序列文件是不错的选择;在处理大规模数据分析任务时,ORC 凭借强大的查询性能更胜一筹,而 RCFile 在特定场景下也有用武之地;Parquet 则凭借跨平台的优势,在多框架协作的数据处理中发挥关键作用;

2025-06-18 20:20:23 487

原创 Hive 窗口函数:解锁数据处理的 “时空魔法”

除了使用固定的 ROWS BETWEEN 语法,我们还可以通过逻辑表达式来自定义窗口框架。例如,计算每个订单与前一个订单销售额的差值。这里使用 LAG 窗口函数,它可以获取窗口内指定偏移量的前一行数据。通过自定义窗口框架,我们实现了订单销售额差值的计算,为数据分析提供了更多维度的视角。​Hive 的窗口函数就像一把神奇的钥匙,打开了数据处理的新大门,让我们能够在复杂的数据中自由穿梭,挖掘出更有价值的信息。

2025-06-18 06:00:00 931

原创 Sqoop 数据迁移翻车现场!Class QueryResult 失踪之谜大揭秘​

在数据处理的世界里,Sqoop 作为 MySQL 与 Hive 之间数据迁移的得力助手,常常帮助我们高效地完成数据传输任务。然而,当你满心期待地在 DolphinScheduler 中编写 Sqoop 命令,准备将 MySQL 数据导入 Hive 时,却突然遭遇Class QueryResult not found的报错,原本顺畅的数据迁移之路瞬间被拦路虎挡住,这无疑令人抓狂。别急,本文将带你抽丝剥茧,揭开这个报错背后的秘密,并提供行之有效的解决方案。

2025-06-17 19:45:59 475

原创 数据仓库分层:从原始数据到业务价值的 “流水线” 解析

 深入理解数据仓库分层:从架构设计到实践逻辑

2025-06-10 11:27:35 722

原创 Hive 优化秘籍:提升大数据处理效能的关键

Hive优化策略可显著提升大数据查询性能,实际应用中需结合具体场景,通过EXPLAIN分析执行计划进行针对性调整,以平衡查询性能与资源利用率。

2025-05-28 16:41:05 1221

原创 HiveSQL 入门避坑指南:搞懂这些 “BY“,让你的 SQL 少跑 80% 的冤枉路

普通子句影响单次查询性能,带"ed"子句优化数据存储结构提升长期查询效率。合理使用这些子句(如大数据量用SORT BY替代ORDER BY)可显著提升HiveSQL性能。

2025-05-27 12:16:35 537

原创 解锁 HDFS 回收站功能:Hadoop 配置文件修改及服务重启步骤解析

HDFS 的回收站功能默认是关闭的,需要在 NameNode 的配置文件中进行配置才能开启3。开启后,当用户通过 HDFS 的 shell 命令(如-rm-rmr)删除文件或目录时,文件或目录并不会被立即删除,而是会被移动到回收站目录中1。HDFS 会为每个用户创建一个回收站目录,路径为1。

2025-05-21 08:45:26 846

原创 Hive 开发避坑指南:常用小技巧与最佳实践汇总

比如:在shell中,可以查看到当前数据库的名字在hive的家目录下的conf文件夹下,创建 .hiverc 文件cd /opt/installs/hive/conf 下面在这个.hiverc 文件中,添加:注:配置完成后要重新进入。

2025-05-20 20:17:16 284

原创 coze智能体快速入门

扣子是新一代 AI 应用开发平台。无论你是否有编程基础,都可以在扣子上快速搭建基于大模型的各类 AI 应用,并将 AI 应用发布到各个社交平台、通讯软件,也可以通过 API 或 SDK 将 AI 应用集成到你的业务系统中。

2025-05-12 20:26:48 997

原创 Linux中的shell高级部分之sed操作超详细教学

sed,Stream Editor)是 Unix/Linux 系统中强大的文本处理工具,擅长对文本进行等操作。它逐行处理输入数据,执行指定的编辑命令,并将结果输出到标准输出,适合自动化处理大量文本。

2025-05-09 20:40:58 507

原创 Linux中的shell高级部分之awk超详细教学

擅长处理结构化文本(如 CSV、TSV),支持模式匹配、数据处理、格式化输出等功能,甚至包含简单的编程能力。awk 'BEGIN{初始化操作}{每行都执行} END{结束时操作}' 文件名。awk -F ',' '{print $1,$2, $3}' 文件。END {这里面放的是处理完所有的行后要执行的语句 }打印4.txt 中每个学生的姓名以及前两门的成绩。awk '/搜索字符/' score.txt。BEGIN{ 这里面放的是执行前的语句 }{这里面放的是处理每一行时要执行的语句}

2025-05-09 19:49:15 660 1

原创 Linux之mysql8.0的安装

使用这个sql语句可以修复上面的错误!可以这么干:L1i2n3u4x5!exit 退出mysql客户端。2.查看是否有数据库。3.依次安装所需服务。

2025-05-07 20:42:06 401

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除