Hive数据仓库工具知识总结

最新推荐文章于 2025-12-05 16:40:04 发布

原创最新推荐文章于 2025-12-05 16:40:04 发布 · 310 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#数据仓库 #hive #hadoop

大数据同时被 2 个专栏收录

277 篇文章

订阅专栏

Hadoop

52 篇文章

订阅专栏

Hive 相关知识介绍

什么是Hive

Hive是一个基于Hadoop的数据仓库工具，它可以将结构化的数据文件映射为一张数据库表，并提供简单的SQL查询功能(HiveQL)，将SQL语句转换为MapReduce任务进行运行。

Hive的特点

面向批处理：适合处理大规模静态数据，不适合低延迟的交互式查询
SQL-like查询语言(HiveQL)：降低了Hadoop使用门槛
可扩展性：支持用户自定义函数(UDF)
数据存储：数据存储在HDFS上
元数据存储：通常存储在关系型数据库(如MySQL)中

Hive架构

用户接口：CLI、JDBC/ODBC、WebUI等
元数据存储(Metastore)：存储表结构、分区信息等
驱动器(Driver)：包含编译器、优化器、执行器等
执行引擎：默认是MapReduce，也可以是Tez或Spark

Hive数据模型

表(Table)：类似于关系数据库中的表
分区(Partition)：根据分区字段将表数据分到不同目录
桶(Bucket)：对数据进行哈希分区，便于抽样和JOIN操作

Hive常用操作

数据库操作

CREATE DATABASE dbname;
USE dbname;
DROP DATABASE dbname;

表操作

-- 创建表
CREATE TABLE table_name (
  col1 data_type,
  col2 data_type,
  ...
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE;

-- 加载数据
LOAD DATA LOCAL INPATH '/path/to/data' INTO TABLE table_name;

-- 查询
SELECT * FROM table_name WHERE condition;

-- 分区表
CREATE TABLE table_name (
  col1 data_type,
  col2 data_type
)
PARTITIONED BY (partition_col data_type);