Hive 框架的基础介绍以及数据库和数据仓库的概述
Hive框架基础介绍
用户接口
JDBC : Java DataBase Connectivity(Java语言连接数据库)
ODBC : 是“开放数据库互联的简称”(Open Database Connectivity)的简称。ODBC是MicroSoft公司提出的应用程序通用编程接口标准,用于对数据库的访问。
Command-Line Interface : 命令行界面(Command-Line Interface,CLI)是在图形用户界面得到普及之前使用最为广泛的用户界面,它通常不支持鼠标,用户通过键盘输入指令,计算机接收到指令后,予以执行。也有人称之为字符用户界面(character user interface, CUI)。
Hive Thrift Server : 实际上就是(Hive Server) 也称 "Hive1"
Hive Web Interface : 客户端通过页面的访问形式来操作和访问 Hive
Drive驱动
完成 HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在 HDFS 中,随后有 MapReduce 对其进行计算,Yarn进行调度
元数据管理
元数据 : "元数据包含Hive创建的数据库,表,以及字段等元信息"
元数据储存的三种方式 :
"元数据的储存方式根据服务器所选的模式来决定的"
"内嵌模式:"
metastore 不能单独启动
使用内置数据库储存数据 "Derby"
"缺点:" 浪费资源一个客户端就要一个metastore服务储存元数据,数据库不能共享
"本地模式:"
metastore 不能单独启动
metastore连接MySQL数据库,可以共享数据库数据。
"缺点:" 浪费资源,一个客户端就要一个metastore服务连接数据库储存元数据
"远程模式:"
metastore可以单独启动
metastore连接MySQL数据库,可以共享数据。
"缺点:" 需要启动metastore服务
Metastore : "元数据储存服务,客户端连接Metastore服务,Metastore再去连接Mysql等数据库,来进行元数据的存取"
任务计算、资源调度、数据存储
可以参考小浪之前发布的《Hadoop三大“金刚”完美剖析 ─────── HDFS、MapReduce、YARN》
Hadoop三大金刚介绍地址
数据仓库的概述
数据仓库四大特性
面向主题性: 我们分析什么主题就是什么
集成性: 数据仓库将海量的各类数据进行汇总集成
非易失性: 数据仓库存储的历史数据不会进行变更
时变性: 数据仓库会对当下存储的数据做出具体的分析
数据仓库OLAP和数据库OLTP的区别
分为陆点:
功能: OLAP是分析事物的,OLTP是处理事物的。
设计: OLAP是面向主题的,OLTP是面向业务的。
存储: OLAP 是T P E级别的,OLTP是M G级别的。
数据: OLAP 是历史数据并且是多维度的,OLTP是最新的数据并且是二维的
响应时间: OLAP 慢,OLTP 快
操作者: OLAP 是决策者来操作的,OLTP是客户和操作员操作的。