Hive 之查询 04-分桶及抽样查询

恋梦轩

已于 2023-02-13 16:48:33 修改

阅读量672

点赞数

分类专栏： Hive 文章标签： Hive 数仓工具查询分桶抽样查询

于 2020-04-02 11:57:17 首次发布

本文链接：https://blog.youkuaiyun.com/cybeyond_xuan/article/details/105266385

版权

本文介绍了Hive中的分桶表数据存储和抽样查询。分桶类似于Hadoop分区，通过创建分桶表并调整属性实现数据分桶。抽样查询允许在大型数据集中获取代表性结果，使用TABLESAMPLE(BUCKET x OUT OF y)语法，根据y的比例抽取bucket数据。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

欢迎大家扫码关注我的微信公众号：
数据之恋

Hive 之查询 04-分桶及抽样查询

一、分桶表数据存储
二、分桶抽样查询

一、分桶表数据存储

分区针对的是数据的存储路径，分桶针对的是数据文件；

分区提供一个隔离数据和优化查询的便利方式。不过，并非所有的数据集都可以形成合理的分区。特别是要确定合适的划分大小这个问题。

【注】分桶类似于 Hadoop 里面的分区；

如：

创建分桶表：

hive (default)> create table stu_buck(
              > id int, 
              > name string)
              > clustered by(id)
              > into 4 buckets
              > row format delimited fields terminated by '\t';
OK
Time taken: 2.17 seconds

查看表结构：

hive (default)> desc formatted stu_buck;
OK	 
... ...                	 
Num Buckets:        	4                   	 
Bucket Columns:     	[id]
... ...              
Time taken: 0.449 seconds, Fetched: 28 row(s)

导入数据：