hive基础-数据模型

最新推荐文章于 2025-07-03 16:15:17 发布

原创最新推荐文章于 2025-07-03 16:15:17 发布 · 710 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#hive-DDL-DML

big-data 专栏收录该内容

14 篇文章

订阅专栏

本文深入解析了Hive中的数据模型，包括表、外部表、分区和桶的概念及使用场景。详细介绍了各种数据模型的创建、修改和删除的DDL语句，以及DML操作示例。同时，提供了关于存储格式、压缩支持和数据类型的支持信息。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Hive 中所有的数据都存储在 HDFS 中，Hive 中包含以下数据模型：

Table：
External Table：
Partition：
Bucket：
(1)表table：一个表就是hdfs中的一个目录
内部表：默认设置，数据目录由hive默认设置，可以修改。hadoop->hive时，数据会迁移目录。hive删除会级联删除hadoop物理数据。
外部表：元数据删除时不删除物理数据，不迁移数据目录。
(2)区Partition：表内的一个区就是表的目录下的一个子目录：
建表语句语法区分
查询时需要指定分区字段，提升效率。
(3)桶Bucket：如果有分区，那么桶就是区下的一个单位，如果表内没有区，那么桶直接就是表下的单位，桶一般是文件的形式。
按字段hash计算，数据分组，抽样运算时用的较多。
DDL
DML
示例代码

CREATE DATABASE IF NOT EXISTS shopping COMMENT 'stores all shopping basket data' LOCATION '/user/retail/hive/SHOPPING.db' 
	WITH DBPROPERTIES ('purpose' = 'testing');
ALTER DATABASE shopping SET DBPROPERTIES ('department' = 'SALES');
DROP DATABASE database_name [RESTRICT|CASCADE];
SHOW DATABASES [ LIKE 'identifier_with_wildcards' ];
SHOW TABLES IN retail;
CREATE TEMPORARY TABLE states (state STRING);
ALTER TABLE states RENAME TO states_old;
ALTER TABLE states CONCATENATE;
ALTER TABLE ids ADD PARTITION (datestamp='2016-05-30') location '/user/demo/ids/2016-05-30';
MSCK REPAIR TABLE ids_internal;
ALTER TABLE RETAIL.TRANSACTIONS ADD COLUMNS (loyalty_card boolean);

ALTER TABLE transactions ENABLE NO_DROP;
ALTER TABLE transactions ENABLE OFFLINE;

CREATE TABLE transactions_test LIKE transactions;

LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename
INSERT [OVERWRITE] TABLE tablename1 [IF NOT EXISTS]
	SELECT select_fields FROM from_statement;
INSERT OVERWRITE DIRECTORY 'exampleoutput' ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
	SELECT persid, firstname, lastname FROM person;
CREATE TABLE blank_tablename LIKE tablename;	
variance()
percentile_approx() 
select login_account,max(user_id) from tb_user group by login_account;

官方手册