欢迎大家扫码关注我的微信公众号:
Hive 之 查询 04-分桶及抽样查询
一、 分桶表数据存储
分区针对的是数据的存储路径, 分桶针对的是数据文件;
分区提供一个隔离数据和优化查询的便利方式。 不过, 并非所有的数据集都可以形成合理的分区。 特别是要确定合适的划分大小这个问题。
【注】分桶类似于 Hadoop 里面的分区;
如:
创建分桶表:
hive (default)> create table stu_buck(
> id int,
> name string)
> clustered by(id)
> into 4 buckets
> row format delimited fields terminated by '\t';
OK
Time taken: 2.17 seconds
查看表结构:
hive (default)> desc formatted stu_buck;
OK
... ...
Num Buckets: 4
Bucket Columns: [id]
... ...
Time taken: 0.449 seconds, Fetched: 28 row(s)
导入数据: