hadoop(八)、hive简介

本文介绍了Hive,它是基于Hadoop的数据仓库工具,基于HDFS的MapReduce计算框架,可对HDFS数据进行分析管理。还阐述了Hive内部表和外部表的区别,包括数据管理、存储位置、删除操作等方面。此外,提到分区表可加快查询速度。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、什么是hive
hive利用hdfs存储数据,hive将HQL转换成MapReduce执行查询数据,所以说Hive是基于Hadoop的一个数据仓库工具,实质就是一款基于HDFS的MapReduce计算框架,对存储在HDFS中的数据进行分析和管理

二、Hive内部表和外部表的区别
1、未被external 修饰的是内部表,被extend修饰的是外部表
2、内部表数据由hive自身管理,外部表数据由hdfs管理
3、内部表数据的存储位置是hive.metastore.warehouse.dir(默认:/user/hive/warehouse),外部表数据的存储位置由自己制定
4、删除内部表会直接删除元数据以及存储数据,删除外部表仅仅会删除元数据,hdfs上的文件不会被删除
5、对内部表的修改会将修改直接同步给元数据,而对外部表的表结构和分区进行修改,则需要修复(MSCK REPAIR TABLE table_name;)

三、分区表和分桶表:
分区表:
eg:

hive> create table logs(ts bigint,line string)
      > partitioned by (dt String,country string);

分区表就是在系统上建立文件夹,把分类数据放在不同文件夹下面,加快查询速度

参考文档:https://www.cnblogs.com/qingyunzong/p/8707885.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值