Hive、Hadoop、HBase

最新推荐文章于 2025-07-26 13:23:05 发布

原创

最新推荐文章于 2025-07-26 13:23:05 发布 · 726 阅读

0 ·

CC 4.0 BY-SA版权

本文介绍了Hive作为基于Hadoop的数据仓库系统，其简化了MapReduce编程，提供了SQL-like查询语言QL。HBase是建立在HDFS之上的NoSQL数据库，增强了Hadoop的随机读写能力。Hive的优势在于它让SQL开发者能便捷地进行大数据分析，降低了开发成本，尤其适合大规模数据的批量处理。

1、Hive、Hadoop、Hbase

1）Hive是为了简化用户编写MapReduce程序而生成的一种框架，使用MapReduce做过数据分析的人都知道，很多分析程序除业务逻辑不同外，程序流程基本一样。在这种情况下，就需要Hive这样的用户编程接口。Hive提供了一套类SQL的查询语言，称为QL，而在创造Hive框架的过程中之所以使用SQL实现Hive是因为大家对SQL语言非常的熟悉，类似作用的Pig就不是通过SQL实现的。

2）Hive是基于Hadoop的一个开源数据仓库系统，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，Hive可以把SQL中的表、字段转换为HDFS中的目录、文件。

3）Hive是建立在Hadoop之上的数据仓库基础构架、是为了减少MapReduce编写工作的批处理系统，Hive本身不存储和计算数据，它完全依赖于HDFS和MapReduce。Hive可以理解为一个客户端工具，将我们的sql操作转换为相应的MapReduce jobs，然后在Hadoop上面运行。

4）Hive就是MapReduce的一个封装，Hive的意义就是在业务分析中把复杂难写的MapReduce程序转化为容易编写的Sql语言。

5）Hbase可以认为是HDFS的一个封装。他的本质是数据存储，是个NoSql数据库；Hbase部署于HDFS之上，并且克服了HDFS在随机读写方面的缺点。

2、Hive 的优势

1）Hive支持标准的SQL语法，免去了用户编写MapReduce程序的过程，大大减少了公司的开发成本
2）Hive的出现可以让那些精通SQL技能、但是不熟悉MapReduce 、编程能力较弱与不擅长Java语言的用户能够在HDFS大规模数据集上很方便地利用SQL 语言查询、汇总、分析数据，毕竟精通SQL语言的人要比精通Java语言的多得多