hive简介

本文对比了阿里自研的数据仓库ODPS与Hive的结构与特性。介绍了Hive缺乏索引导致的暴力查询问题,以及通过MapReduce实现的并行处理能力。深入解析了Hive的元数据存储方式,以及内部表与外部表的区别,强调外部表在删除时数据的保留特性。同时,阐述了分区与bucket的概念,以及它们在数据存储与并行运算中的作用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、简介

odps是阿里自研的数据仓库,用于批量结构化数据处理和计算,类似hive的设计结构。

 

二、hive的结构

hive没有索引,存在暴力查询;由于其执行通过mapreduce可以并行处理。

 

hive将元数据存储在数据库中,数据存储在hdfs中。

 

hive的表分为内部表外部表,不特殊指出创建的表为内部表。

 

内部表相当于一个hdfs中的一个文件夹,在配置文件hive-site.xml中可以设置这个文件夹所处的路径,该表的所有数据都放在该目录中。

外部表的数据不是放该路径中,而存放在Location后的hdfs目录中,在删除外部表时仅删除其元数据,真正数据被保留。

 

分区为表下的子文件夹,每个分区的数据存储在分区的文件夹中。

 

bucket根据hash切分,存储在一个文件中,目的是为了并行运算,类似于spark的rdd分区。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值