Hive
文章平均质量分 91
KOG_Joo
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hive 文件格式深度解析:性能、原理、压缩、场景选择 + 面试题
本篇文章全面解析 Hive 中常见的数据文件格式,包括 Text、SequenceFile、RCFile、ORC、Parquet、Avro 及 JSON/CSV 的特点、差异、性能与适用场景,并给出每种格式的建表示例。内容还涵盖压缩方式、行式与列式存储比较、企业实践经验以及 20 条高频Hive面试题及详细答案,是一篇适合学习与面试的完整指南。原创 2025-12-07 00:29:39 · 814 阅读 · 0 评论 -
一文学会Hive分区表+分桶表+拉链表
本文详细介绍了Hive中的三种表技术:分区表、分桶表和拉链表。分区表通过按字段值分目录存储数据,减少扫描范围;分桶表通过哈希均匀分布数据,优化Join性能;拉链表则用于记录维度历史变化。文章对比了三者的区别,分析了各自的使用场景和优缺点,并提供了面试常见问题的解答。这三种技术在数据仓库开发中各有侧重,合理组合使用可以显著提升查询性能和数据管理能力,是面试和实战中必须掌握的核心知识点。原创 2025-12-01 23:43:47 · 712 阅读 · 0 评论 -
一文学会Hive窗口函数(详解 + 示例输出 + 面试常见问题)
本文系统介绍了Hive窗口函数的使用方法,包括9种常用窗口函数的语法、功能和应用场景。通过员工工资表的示例数据,详细演示了ROW_NUMBER、RANK、DENSE_RANK等排名函数,SUM OVER、AVG OVER等聚合函数,以及LAG、LEAD等偏移函数的实际应用。文章还包含窗口函数在面试中的高频问题,适合学习、面试和实战参考。原创 2025-11-29 16:49:10 · 1307 阅读 · 0 评论 -
Hive 内部表与外部表的区别(超详细讲解+面试常见问题)
Hive中的表分为内部表(Managed Table)和外部表(External Table),主要区别在于数据管理方式。内部表由Hive完全管理,数据存储在Hive仓库目录,删除表时会同时删除数据;而外部表仅管理表结构,数据可存放在HDFS任意位置,删除表时不删除数据文件。内部表适合Hive专有数据,外部表适合多系统共享数据场景。两者查询方式相同,但外部表能防止误删数据,更适合生产环境。关键区别还包括创建语法(EXTERNAL关键字)、数据加载行为(是否移动文件)以及数据生命周期管理。原创 2025-11-29 15:11:19 · 955 阅读 · 0 评论
分享