Hive简介

Hive简介

官网:https://hive.apache.org/

hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。另外一个是Windows注册表文件。

数据库 VS 数据仓库

在这里插入图片描述

数据库和数据仓库本质的区别是:OLTP和OLAP的区别

OLTP和OLAP的区别

联机事务处理OLTP(on-line transaction processing)主要是执行基本的、日常的事务处理,比如数据库记录的增、删、改、查。比如在银行存取一笔款,就是一个事务交易。OLTP的特点一般有:

  1. 实时性要求高;
  2. 数据量不是很大;
  3. 跟业务系统紧密关联
  4. 并发性要求高并且严格的要求事务的完整,安全性。(比如这种情况:有可能你和你的家人同时在不同的银行取同一个帐号的款)

联机分析处理OLAP(On-Line Analytical Processing)是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。典型的应用就是复杂的动态的报表系统。OLAP的特点一般有:

  1. OLAP处理的是历史数据
  2. 实时性要求不是很高,很多应用的顶多是每天更新一下数据;
  3. 数据量大,因为OLAP支持的是动态查询,所以用户也许要通过将很多数据的统计后才能得到想要知道的信息,例如时间序列分析等等,所以处理的数据量很大;
  4. 因为重点在于决策支持,所以查询一般是动态的,也就是说允许用户随时提出查询的要求。所以在OLAP中通过一个重要概念“维”来搭建一个动态查询的平台(或技术),供用户自己去决定需要知道什么信息。

What Is Hive

Hive是一个基于Apache Hadoop的数据仓库基础设施。
Hive — HQL(类SQL) — MapReduce
Hive是一个大数据的计算框架。

一句话描述Hive:基于Hadoop的数据仓库工具,将数据映射成表,提供HQL语句进行数据分析。
Hive的数据存储:HDFS
Hive的分析引擎:默认是将HQL转成MapReduce
Hive的资源调度平台:Yarn

What Hive Is NOT

Hive不是为在线事务处理(OLTP)而设计的。它最适合用于传统的数据仓库任务。

Hive的特性

  • 支持通过SQL轻松访问数据的工具,从而支持数据仓库任务,如提取/转换/加载(ETL)、报告和数据分析。
  • 多种数据格式
  • 访问直接存储在Apache HDFS或其他数据存储系统(如Apache HBase)中的文件
  • 通过Apache Tez、Apache Spark或MapReduce执行查询

Hive架构

在这里插入图片描述

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值