Hive简介
官网:https://hive.apache.org/
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。另外一个是Windows注册表文件。
数据库 VS 数据仓库

数据库和数据仓库本质的区别是:OLTP和OLAP的区别
OLTP和OLAP的区别
联机事务处理OLTP(on-line transaction processing)主要是执行基本的、日常的事务处理,比如数据库记录的增、删、改、查。比如在银行存取一笔款,就是一个事务交易。OLTP的特点一般有:
- 实时性要求高;
- 数据量不是很大;
- 跟业务系统紧密关联
- 并发性要求高并且严格的要求事务的完整,安全性。(比如这种情况:有可能你和你的家人同时在不同的银行取同一个帐号的款)
联机分析处理OLAP(On-Line Analytical Processing)是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。典型的应用就是复杂的动态的报表系统。OLAP的特点一般有:
- OLAP处理的是历史数据
- 实时性要求不是很高,很多应用的顶多是每天更新一下数据;
- 数据量大,因为OLAP支持的是动态查询,所以用户也许要通过将很多数据的统计后才能得到想要知道的信息,例如时间序列分析等等,所以处理的数据量很大;
- 因为重点在于决策支持,所以查询一般是动态的,也就是说允许用户随时提出查询的要求。所以在OLAP中通过一个重要概念“维”来搭建一个动态查询的平台(或技术),供用户自己去决定需要知道什么信息。
What Is Hive
Hive是一个基于Apache Hadoop的数据仓库基础设施。
Hive — HQL(类SQL) — MapReduce
Hive是一个大数据的计算框架。
一句话描述Hive:基于Hadoop的数据仓库工具,将数据映射成表,提供HQL语句进行数据分析。
Hive的数据存储:HDFS
Hive的分析引擎:默认是将HQL转成MapReduce
Hive的资源调度平台:Yarn
What Hive Is NOT
Hive不是为在线事务处理(OLTP)而设计的。它最适合用于传统的数据仓库任务。
Hive的特性
- 支持通过SQL轻松访问数据的工具,从而支持数据仓库任务,如提取/转换/加载(ETL)、报告和数据分析。
- 多种数据格式
- 访问直接存储在Apache HDFS或其他数据存储系统(如Apache HBase)中的文件
- 通过Apache Tez、Apache Spark或MapReduce执行查询
Hive架构

956

被折叠的 条评论
为什么被折叠?



