Apache-Hive是个什么东东

最新推荐文章于 2025-03-28 21:29:16 发布

原创最新推荐文章于 2025-03-28 21:29:16 发布 · 646 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

Hive 专栏收录该内容

24 篇文章

订阅专栏

本文详细介绍了Apache Hive作为数据仓库工具的功能与特性，包括使用SQL语法处理海量数据集、支持多种数据格式、直接访问Hadoop存储系统数据的能力，以及通过不同计算引擎执行查询操作。Hive适用于ETL、报表和数据分析任务，特别设计用于OLAP而非OLTP，具备良好的拓展性和容错性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Apache-Hive概览

Hive是什么？要想将一个东西使用好，必须首先对这个东西有一个很正确的定位。

答案如下：

Hive是一个数据仓库工具。

Hive是一个可以用来便利读取、写入、管理海量数据集的数据仓库工具。

Hive是一个可以使用SQL语法读取、写入、管理分布式存储系统上的海量数据集的数据仓库工具。

Hive是基于Hadoop生态的上层应用，它提供了以下的特性：

通过SQL访问数据，允许运行ETL(Extract\Transform\Load)、报表、数据分析等相关的的数据仓库任务。
能够按照大量不同的format策略来读取、存储数据，比如CSV、JSON、AVRO、TEXT、ORC、Parquet等。
直接访问HDFS上的数据或者其他基于Hadoop存储系统的数据如Hbase。
可以通过Apache Tez、Spark、Mapreduce计算引擎执行Query操作。
通过不同的资源管理器能进行亚秒级的检索这个只要资源给的够，还是可以实现的，但是一般是吹牛逼的，如YARN、Slider、Hive LLAP。

Hive提供了标准的类SQL规范，通过HiveQL还支持用户自定义UDF、UDAF、UDTF函数。所以很强大！

Hive不是为了进行OLTP（online transaction processing）而设计，而是为了进行OLAP（online analysis processing），适合传统的数据仓库tasks的执行。

Hive可以通过横向增加机器数量，具有很好的拓展性、容错性、松散连接性（多样的input formats）。

Hive的主要组件有：

HCatalog

这是基于hadoop的一个表和存储的管理层，它允许用户使用不同的处理工具如Pig、Mapreduce更好的以网格化的形式读写数据。

WebHCat

提供一个服务允许用户使用该服务运行MR作业，Pig jobs，Hive jobs，还可以通过HTTP接口管理Hive的元数据。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。