Hive介绍

最新推荐文章于 2024-04-25 22:17:42 发布

原创最新推荐文章于 2024-04-25 22:17:42 发布 · 550 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#hive 介绍 hadoop

大数据专栏收录该内容

6 篇文章

订阅专栏

Hive与Hadoop

Hive是完全运行在hadoop之上的一个数据分析工具，可以看作是hadoop的一个自然延伸。具备强大的数据分析能力，在对标准SQL保持高度兼容的基础上，提供了大量增强功能和插件机制。

优点：非常成熟稳定，部署方便，语法类似sql，不必再写mapreduce程序，学习成本低，适合做ETL（来描述将数据从来源端经过抽取（extract）、转换（transform）、加载（load）至目的端的过程）类的处理。
缺点：完全利用hadoop集群自身的计算能力，性能上比spark略低。不适合需要反复迭代的场景（如机器学习等等）

简单来说Hive提供了从Hdfs文件系统提取文件成结构化数据的能力，适合吞吐量大对延迟要求低的读取任务。

Hive和Hbase，Mysql等数据库的区别

链接：https://www.zhihu.com/question/21677041/answer/25222796
来源：知乎

对于hbase当前noSql数据库的一种，最常见的应用场景就是采集的网页数据的存储，由于是key-value型数据库，可以再扩展到各种key-value应用场景，如日志信息的存储，对于内容信息不需要完全结构化出来的类CMS应用等。注意hbase针对的仍然是OLTP（On-Line Transaction Processing 联机事务处理系统(OLTP)）应用为主。

对于hive主要针对的是OLAP（联机分析处理）应用，注意其底层不是hbase，而是hdfs分布式文件系统，重点是基于一个统一的查询分析层，支撑OLAP应用中的各种关联，分组，聚合类SQL语句。hive一般只用于查询分析统计，而不能是常见的CUD操作，要知道HIVE是需要从已有的数据库或日志进行同步最终入到hdfs文件系统中，当前要做到增量实时同步都相当困难。

和mysql,oracle完全不是相同的应用场景。这个是结构化数据库，针对的更多的是结构化，事务一致性要求高，业务规则逻辑复杂，数据模型复杂的企业信息化类应用等。包括互联网应用中的很多业务系统也需要通过结构化数据库来实现。所以和hbase,hive不是一个层面的东西，不比较。