初识Hive
Hive 一种建立在Hadoop文件系统上的数据仓库架构,并对存储在HDFS中的数据进行分析与管理
Hive架构的核心 --将数据通过SQL语句转换成MapReduce操作/转成hdfs操作
数据仓库 --主要用来分析和管理数据,一般是查询操作,需要定期加载和刷新数据
元数据Metastore(表字段定义,属性,存放位置等除本身数据之外的信息)存储在关系型数据库(自建的mysql)中
Hive数据类型
: primitive_type 复杂类型
| array_type
| map_type
| struct_type --结构体类型 eg:收货地址省市县...
:primitive_type 简单类型
|TINYINT
| SMALLINT
| INT
| BIGINT
| BOOLEAN
| FLOAT
| DOUBLE
| STRING
DDL:表、字段的创建
DML:数据的增删改查操作
HIVE基本操作
数据展示
人员表
id,姓名,爱好,住址
1,小明1,lol-book-movie,beijing:xisanqi-shanghai:pudong
2,小明2,lol-book-movie,beijing:xisanqi-shanghai:pudong
3,小明3,lol-book-movie,beijing:xisanqi-shanghai:pudong
4,小明4,lol-book-movie,beijing:xisanqi-shanghai:pudong
5,小明5,lol-movie,beijing:xisanqi-shanghai:pudong
6,小明6,lol-book-movie,beijing:xisanqi-shanghai:pudong
7,小明7,lol-book,beijing:xisanqi-shanghai:pudong
8,小明8,lol-book,beijing:xisanqi-shanghai:pudong
9,小明9,lol-book-movie,beijing:xisanqi-shanghai:pudong
一、内部表简单操作
1 创建内部表及其基本设置
--创建内部表、设置分割符、导入数据
CREATE TABLE psn0(
id int,
name string,
likes ARRAY < string >,
address MAP < string,string >
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ‘,’
COLLECTION ITEMS TERMINATED BY ‘-’
MAP KEYS TERMINATED BY ‘:’;
2 将本地文件中的数据导入表
#LOAD DATA [LOCAL] INPATH ‘filepath’ [OVERWRITE] INTO TABLE tablename;
LOAD DAT