Hive基本操作
基本概念
功能说明

- 操作接口采用类SQL法,提供快速开发的能力
- 避免了去写MapReduce,减少开发人员的学习成本
- 功能扩展很方便
架构


hive和hadoop
- Hive利用HDFS存储数据,利用MapReduce查询分析数据
- 注:Hive是数据仓库工具,没有集群的概念。只需要在hadoop集群Master节点上装Hive。
数据模型
在创建表时指定数据中的分隔符,Hive就可以映射成功,解析数据
- Hive中包含以下数据模型:
- db:在hdfs中表现为hive.metastore.warehouse.dir目录下的一个文件夹
- table:在hdfs中表现所属db目录下一个文件夹
- external table:数据存放位置可以在HDFS任意指定路径
- partition:在hdfs中表现为table目录下的子目录
- bucket:在hdfs中表现为同一个表目录下根据hash散列之后的多个文件
安装部署
安装
#Hive安装前需要安装好JDK和Hadoop并配置好环境变量。
#下载Hive的安装包 http://archive.cloudera.com/cdh5/cdh/5/ 并解压
tar -zxvf hive安装包 -C ~/bigdata/
#进入到解压后的hive目录中,找到conf目录,修改配置文件
cp hive-env.sh.template hive-env.sh
vi hive-env.sh
#在hive-env.sh中指定hadoop的路径
HADOOP_HOME=/root/bigdata/hadoop
配置环境变量
# 编辑文件
vi ~/.bash_profile
# 进行环境变量配置
export HIVE_HOME=/root/bigdata/hive
export PATH=$HIVE_HOME/bin:$PATH
# 更新配置
source ~/.bash_profile
启动
- 启动Hive之前先要开启hive的元

本文介绍了Hive的基本概念,包括其功能、架构以及与Hadoop的关系。Hive作为数据仓库工具,简化了大数据查询分析,通过类SQL语法操作数据,降低了开发难度。内容涵盖Hive的数据模型,如数据库、表、外部表和分区表的详细解释,以及安装部署步骤。此外,文章还深入讨论了Hive的内部表和外部表的区别,动态分区的实现,以及Hive的内置运算符、函数和自定义函数的使用。最后,通过综合案例展示了Hive的实际应用。
最低0.47元/天 解锁文章
394

被折叠的 条评论
为什么被折叠?



