文章目录
一、Hive分桶表
1、分桶操作
分桶操作是更细粒度的分配方式,一张表可以同时分区和分桶。
2、分桶原理
根据指定列计算hash值模余分桶数量,然后将数据分开存放。
Hive的分桶实际上就是Hadoop的分区,有几个桶,就用几个reduce任务来处理。
3、注意事项
需要注意:分桶表必须是内部表。因为只有在创建表时才能指定桶的数量,然后在往表里插入数据的时候,会按照指定的分区字段(列字段)做分桶。
二、分桶表案例演示
1、创建数据文件courses.txt
java
java
java
java
hadoop
hadoop
hadoop
java
java
web
web
web
web
web
php
php
php
php
php
hadoop
hadoop
web
web
hadoop
hadoop
hadoop
asp
asp
asp
asp
uid
uid
uid
uid
uid