Hive简介、基本架构与存储结构

最新推荐文章于 2025-06-09 00:15:00 发布

茵茵的聪聪

最新推荐文章于 2025-06-09 00:15:00 发布

阅读量2.2k

点赞数 2

CC 4.0 BY-SA版权

文章标签： Hive Hadoop 存储结构数据仓库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_36153312/article/details/93041619

Hive是Facebook开发的基于Hadoop的数据仓库工具，用于处理和查询大规模结构化数据。它提供了HQL，将SQL语句转换为MapReduce任务。Hive的架构包括用户接口、Driver、MetaStore服务和元数据存储。存储模型包含数据库、表、视图和分区，其中分区和桶表能提升查询效率。Hive适用于批量数据查询和分析，但不适合实时和更新操作。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

1. Hive简介

1.1 什么是Hive？

Hive是Facebook实现的一个开源的数据仓库工具——

Hive基于Hadoop实现，底层数据存放在HDFS中，计算（查询）使用MapReduce任务实现
可以将结构化的数据文件映射为一张数据库表，并提供HQL（Hive SQL）查询功能，实际上是将HQL语句转化为MapReduce任务运行

这里还需要理解一下数据仓库，数据仓库可以简单理解为存放不同数据源（比如公司支撑不同业务的数据库）的仓库，主要用于查询和分析，也就是基于这些数据去做报表分析、数据挖掘等工作，为企业的决策提供方向和支持。更详细的介绍可以参考数据仓库入门，看这这一篇就够了。

1.2 Hive有什么用？

Hive的优缺点很明显——

基于Hadoop实现，适合处理海量数据，具有可扩展性和容错性
Hive支持自定义函数，实现用户的特定需求
Hive设计的目标是做OLAP，只能查询和追加（append），而不能进行删改操作
Hive的查询是转化为MapReduce任务的，实时性差（MR任务启动耗时）

这些优缺点（设计）决定了它的应用场景——作为一个数据仓库存放企业级的不同数据源的海量数据，去分析、挖掘这些数据，得到有意义的信息。

2. Hive的基本架构

2.1 Hive的架构与组件

H

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。