【Hive】数据仓库

最新推荐文章于 2024-12-12 20:43:20 发布

_popo_

最新推荐文章于 2024-12-12 20:43:20 发布

阅读量105

点赞数

CC 4.0 BY-SA版权

分类专栏： 2020

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_41864648/article/details/118045430

2020 专栏收录该内容

148 篇文章

订阅专栏

本文深入解读Hive作为Hadoop的数据仓库工具，介绍其与Hadoop的关系，数据存储模型（包括DB、Table、ExternalTable、Partition和Bucket），以及如何利用HDFS和MapReduce进行数据操作。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、概念

什么是Hive：Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。
Hive与Hadoop的关系
Hive利用HDFS存储数据，利用MapReduce查询数据
数据存储

1、Hive中所有的数据都存储在 HDFS 中，没有专门的数据存储格式（可支持Text，SequenceFile，ParquetFile，RCFILE等）
2、只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符，Hive 就可以解析数据。
3、Hive 中包含以下数据模型：DB、Table，External Table，Partition，Bucket。
 db：在hdfs中表现为${hive.metastore.warehouse.dir}目录下一个文件夹
 table：在hdfs中表现所属db目录下一个文件夹
 external table：与table类似，不过其位置可以在任意指定路径
 partition：在hdfs中表现为table目录下的子目录
 bucket：在hdfs中表现为同一个表目录下根据hash散列之后的多个文件

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

_popo_ 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。