文章目录
- 零、学习目标
- 一、Hive概述
- 二、下载、安装和配置MySQL
- 三、安装和配置Hive
零、学习目标
- 掌握如何安装配置MySQL
- 掌握如何安装配置Hive
一、Hive概述
- Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取、转化、加载(ETLExtract-Transform-Load ),这是一种可以存储、查询和分析存储在Hadoop 中的大规模数据的机制。Hive 定义了简单的类SQL 查询语言,称为HQL,它允许熟悉SQL 的用户查询数据。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
(一)Hive的SQL - HQL
- HQL - Hive通过类SQL的语法,来进行分布式计算。Hive会将HQL转换成MapReduce去执行,因此它是基于Hadoop的一种分布式计算框架,底层仍然是MapReduce。本质上还是一种离线大数据分析工具。
(二)数据库与数据仓库
- 数据库是面向事务处理的,而数据仓库是面向数据分析处理的(面向主题设计的)。数据仓库存储数据是有主题的,比如分析客户的数据,盈利数据等,都是和决策分析相关的数据。
- 数据库存储的在线数据,而数据仓库存储的是离线数据(历史数据)。
- 数据仓库的数据来源是异构的,有来自数据库的数据、日志数据、