Hive 是 Facebook 开发的,构建于 Hadoop 集群之上的数据仓库应用。2008 年 Facebook 将 Hive 项目贡献给
Apache,成为开源项目。目前最新版本 hive-3.1.2。
存储依赖于 Hadoop HDFS。运行依赖于 MapReduce ,YARN。
HQL:Hadoop Query Language 类 SQL。
缺点:
慢。
批处理任务。
数据库和数据仓库
软件:几乎一样。
角色职能:
1, 数据库为了快速查到数据,提供实时业务【快】。
2, 数据仓库是为了保存所有数据【历史数据】
业务数据库 》 数据库
历史数据库 》 数据仓库
Hive 数据仓库
数据库 》 表 》 字段,记录
Hive 的安装
先决条件
Hadoop 正常的【可以伪分布式部署】。配置要准确。
MySQL 正常的。创建一个空库【db_hive:存放 Hive 的元数据】即可。
source ~/.bashrc 什么意思
source:使当前shell读入路径为filepath的shell文件并依次执行文件中的所有语句,通常用于重新执行刚修改的初始化文件,使之立即生效,而不必注销并重新登录
开始安装
下载,上传,解压,移动,
配置环境变量
Hive 配置文件的设置【连接 MySQL】:位置$HIVE_HOME/conf/
以上配置文件的目的是 Hive 元数据存放在 MySQL 数据库服务器。
Hive 有内置数据库【存放元信息,不能远程】。
对应的 MySQL JDBC JAR 包要拷贝到 Hive lib 目录
初始化【一次】Hive 数据仓库。
>bin/schematool –initSchema –dbType mysql
查看 MySQL 数据库变化:
新添加了74个表格
>bin/hive
测试: