【使用分享】Hive分区表那些事

最新推荐文章于 2024-04-22 09:30:00 发布

华为云技术精粹

最新推荐文章于 2024-04-22 09:30:00 发布

阅读量259

点赞数

CC 4.0 BY-SA版权

文章标签：云计算华为云

本文链接：https://blog.youkuaiyun.com/HWCloudDeveloper/article/details/123498612

本文详细介绍了Hive中的静态分区和动态分区操作，包括创建、添加、查询、修改和删除分区，以及数据的加载与迁移。通过示例展示了如何使用CTAS语句、外部表和动态分区功能，强调了动态分区在处理大量数据时的效率优势，并提供了开启动态分区的相关设置。此外，还讨论了分区表在数据管理和查询优化中的作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、静态分区

1.创建静态分区格式:

create table employees (
 name   string,
 salary  float,
 subordinated array<string>,
 deductions map<string,float>,
 address  struct<street:string,city:string,state:string,zip:int>
 ) partitioned by (country string,state string)
 row format delimited
 fields terminated by "\t"
 collection items terminated by ","
 map keys terminated by ":"
 lines terminated by "\n"
 stored as textfile;

创建成果后发现他的存储路径和普通的内部表的路径是一样的而且多了分区表的字段，因为我们创建的分区表并没内容，事实上，除非需要优化查询性能，否则实现表的用户不需要关系"字段是否是分区字段"

2.添加分区表 alter table employees add partition (country="china",state="Asia"); 查看分区表信息: show partitions employees; hdfs上的路径:/user/hive/warehouse/zxz.db/employees/country=china/state=Asia 他们都是以目录及子目录形式存储的

3.插入数据: 格式: INSERT INTO TABLE tablename [PARTITION (partcol1[=val1], partcol2[=val2] ...)] VALUES values_row [