大数据学习16:Hive环境搭建及内部表、分区表

本文介绍了大数据分析引擎Hive,重点讨论了Hive如何使用SQL处理大数据,包括其在Hadoop和Spark体系中的角色。详细阐述了Hive的体系架构、安装配置,特别是本地和远程模式,并探讨了Hive的数据模型,如内部表、分区表、外部表、桶表和视图。同时,文章深入解析了Hive的执行计划,展示了如何通过SQL查询和JDBC进行Hive查询,以及自定义函数的实现原理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

大数据分析引擎:Hive

大数据的终极目标:使用SQL语句处理大数据
1、Hadoop的终极目标:使用SQL语句来处理大数据
)Hive:支持SQL;
)Pig:支持PigLatin
2、Spark的体系架构中:
(*)Spark SQL:类似Hive
支持SQL、支持DSL语句
3、另一个impala

一、什么是Hive

	1、Hive是基于HDFS之上的一个数据仓库
				Hive					HDFS
				表						目录
				数据					文件
				分区					目录
				桶表					文件	
				
	2、Hive基于Hadoop之上的一个数据分析引擎
				Hive是一个翻译器
				Hive 2.x以前:SQL---->Hive------>Map Reduce
				Hive2.x以后:推荐使用Spark作为SQL的执行引擎(只针对Hadoop 3.x以前)
				推荐《Hive on Spark文档》
				
	3.Hive支持SQL的一个子集(HQL)

二、Hive体系架构
Hive体系架构

三、安装配置Hive

			tar -zxvf apache-hive-2.3.0-bin.tar.gz -C ~/training/
			设置环境变量 
			HIVE_HOME=/root/training/apache-hive-2.3.0-bin
			export HIVE_HOME
	
			PATH=$HIVE_HOME/bin:$PATH
			export PATH
	核心配置文件: conf/hive-site.xml

1、嵌入模式

	(*)不需要MySQL的支持,使用Hive的自带的数据库Derby
	(*)局限:只支持一个连接
	
		<?xml version="1.0" encoding="UTF-8" standalone="no"?>
		<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
		<configuration>
		<property>
		   <name>javax.jdo.option.ConnectionURL</name>
		   <value>jdbc:derby:;databaseName=metastore_db;create=true</value>
		</property>

		<property>
		   <name>javax.jdo.option.ConnectionDriverName</name>
		   <value>org.apache.derby.jdbc.EmbeddedDriver</value>
		</property>

		<property>
		   <name>hive.metastore.local</name>
		   <value>true</value>
		</property>

		<property>
		   <
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值