Apache Hive 概述
分布式SQL计算
1.以分布式的形式,执行SQL语句,进行数据统计分析
2.对数据进行统计分析,SQL是目前最为方便的编程工具。
3.大数据体系中充斥着非常多的统计分析场景,使用SQL去处理数据,在大数据中是有极大的需求的

4.不过MapReduce支持程序开发(Java、Python等),但不支持SQL直接进行开发,所以,我们要用到Apache Hive(一款分布式SQL计算的工具), 其主要功能是:将SQL语句 翻译成MapReduce程序运行。即:基于Hive为用户提供了分布式SQL计算的能力、写的是SQL、执行的是MapReduce。

为什么使用Hive
- 使用Hadoop MapReduce直接处理数据所面临的问题
- 人员学习成本太高 需要掌握java、Python等编程语言
- MapReduce实现复杂查询逻辑开发难度太大
Apache Hive是做什么的
-
将SQL语句翻译成MapReduce程序,从而提供用户分布式SQL计算的能力。
-
传统

最低0.47元/天 解锁文章
1601

被折叠的 条评论
为什么被折叠?



