Hive学习笔记--常见表结构

最新推荐文章于 2021-03-10 17:42:28 发布

原创最新推荐文章于 2021-03-10 17:42:28 发布 · 474 阅读

CC 4.0 BY-SA版权

文章标签：

5 篇文章

订阅专栏

本文深入探讨Hive中的内部表、外部表、分区表及分桶表的概念与操作，解析不同类型的表在HDFS存储上的特性，以及如何通过分区和分桶优化查询效率。

实际上可以认为对数据的分类
用来分区的字段的值在原始数据不存在，分区的字段值是手动添加的（）；
添加成功会在HDFS中西添加一个目录结构
（
并且添加这么一个文件
）
**msck repair table addrs ：**命令主要是用来解决通过hdfs dfs -put或者hdfs api写入hive分区表的数据在hive中无法被查询到的问题。hive会去检测这个表在hdfs上的文件，把没有写入metastore的分区信息写入metastore。
指定的分区字段要与创建表时的分区字段一致否则报错（）；
添加分区的造作
向分区中插入几条数据，在原表的基础之上进行修改（效率低 ----一条数据10多秒）
可以添加limit 限制添加的条数，否则满足条件的全部插入；

动态添加分区
set hive.exec.dynamic.partition.mode=nonstrict; 设置非严格分区
insert into table city partition(country) select id, name, country from tmp distribute by country; //指明按照那个字段进行动态分区添加；
分区的意义：
- 将表内的数据进一步进行细分
- 可以减少数据的冗余
- 提高指定分区的查询分析效率；也意味着跨区查处效率反而减低；