XY个人笔记
Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。
Hive 的数据存储在 HDFS 中,大部分的查询由 MapReduce 完成(包含 * 的查询,比如 select * from tbl 不会生成 MapReduce 任务)。Hive不存在主从架构,不需要安装在每台服务器上,只需要安装几台就行了。
一、Hive安装配置
1.首先将hive的安装包上传到我们的虚拟机上并解压到相应目录
$ tar -zxvf apache-hive-1.2.1-bin.tar.gz -C /opt/modules/apache/
个人习惯把解压后的文件更名简洁一点
$ mv apache-hive-1.2.1-bin/ hive-1.2.1
2.重命名conf里面的hive-env.sh.template为hive-env.sh,并配置
$ mv hive-env.sh.template hive-env.sh
3.重命名或copy hive-default.xml.template 文件
$ cp hive-default.xml.template hive-site.xml
在hive-site.xml中增加如下配置
<property>
<name>hive.metastore.warehouse.dir</name>
<value>/user/hive/warehouse</value>
<description>location of default database for the warehouse</description>
</property>
4.在HDFS上创建文件,增加权限
$ bin/hdfs dfs -mkdir /user/hive/warehouse
$ bin/hdfs dfs -chmod g+w /tmp
$ bin/hdfs dfs -chmod g+w /user/hive/warehouse
5.进入hive
$ bin/hive
6.成功进入hive 查看到我们的默认数据库default
7.默认的数据库在我们的HDFS里面是不会显示出来的
创建数据库
可以在HDFS中看到我们新创建的数据库test
8.Hive常用命令操作
a.使用数据库
hive>use