文章目录
1. Hive分桶表
1.1 分桶操作
分桶操作是更细粒度的分配方式,一张表可以同时分区和分桶。
1.2 分桶原理
根据指定列计算hash值模余分桶数量,然后将数据分开存放。
Hive的分桶实际上就是Hadoop的分区,有几个桶,就用几个reduce任务来处理。
1.3 注意事项
需要注意:分桶表必须是内部表。因为只有在创建表时才能指定桶的数量,然后在往表里插入数据的时候,会按照指定的分区字段(列字段)做分桶。
2. Hive分桶表实战
2.1 创建数据文件courses.txt
java
java
java
java
hadoop
hadoop
hadoop
java
java
web
web
web
web
web
php
php
php
php
php
hadoop
hadoop
web
web
hadoop
hadoop
hadoop
asp
asp
asp
asp
uid
uid
uid
uid
uid

本文详细介绍了Hive的分桶表概念,包括分桶操作、分桶原理和注意事项。通过一个实例展示了如何创建分桶表、数据导入、查看存储情况以及对分桶数据的读取和采样操作,深入理解Hive分桶机制。
订阅专栏 解锁全文
947

被折叠的 条评论
为什么被折叠?



