推荐系统-Hive基础

本文介绍了Hive的基本概念,包括其功能、架构以及与Hadoop的关系。Hive作为数据仓库工具,简化了大数据查询分析,通过类SQL语法操作数据,降低了开发难度。内容涵盖Hive的数据模型,如数据库、表、外部表和分区表的详细解释,以及安装部署步骤。此外,文章还深入讨论了Hive的内部表和外部表的区别,动态分区的实现,以及Hive的内置运算符、函数和自定义函数的使用。最后,通过综合案例展示了Hive的实际应用。

基本概念

功能说明

在这里插入图片描述

  • 操作接口采用类SQL法,提供快速开发的能力
  • 避免了去写MapReduce,减少开发人员的学习成本
  • 功能扩展很方便

架构

在这里插入图片描述
在这里插入图片描述

hive和hadoop

  • Hive利用HDFS存储数据,利用MapReduce查询分析数据
  • 注:Hive是数据仓库工具,没有集群的概念。只需要在hadoop集群Master节点上装Hive。

数据模型

在创建表时指定数据中的分隔符,Hive就可以映射成功,解析数据

  • Hive中包含以下数据模型:
    • db:在hdfs中表现为hive.metastore.warehouse.dir目录下的一个文件夹
    • table:在hdfs中表现所属db目录下一个文件夹
    • external table:数据存放位置可以在HDFS任意指定路径
    • partition:在hdfs中表现为table目录下的子目录
    • bucket:在hdfs中表现为同一个表目录下根据hash散列之后的多个文件

安装部署

安装

#Hive安装前需要安装好JDK和Hadoop并配置好环境变量。
#下载Hive的安装包 http://archive.cloudera.com/cdh5/cdh/5/ 并解压
 tar -zxvf hive安装包  -C ~/bigdata/
 
#进入到解压后的hive目录中,找到conf目录,修改配置文件
cp hive-env.sh.template hive-env.sh
vi hive-env.sh

#在hive-env.sh中指定hadoop的路径
HADOOP_HOME=/root/bigdata/hadoop

配置环境变量
# 编辑文件
vi ~/.bash_profile
# 进行环境变量配置
export HIVE_HOME=/root/bigdata/hive
export PATH=$HIVE_HOME/bin:$PATH
# 更新配置
source ~/.bash_profile

启动

  • 启动Hive之前先要开启hive的元
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值