hive表的操作(二)

本文详细介绍了Hive中的数据操作,包括DDL(定义表、创建库)、DML(修改表)和DQL(查询表),并重点讨论了Hive的复合数据类型,如数组(array)、映射(map)和结构(struct)的创建、加载数据及查询示例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. Hive中的 DDL 定义表(创建表 创建库) DML 修改表 DQL 查询表

***把hdfs中海量的数据查询出来,这才是目的 
给hive表添加数据

  • insert into t1 values('admin',12)(不推荐使用);
  • 直接给hdfs中添加文件即可(不推荐使用)  hdfs dfs -put users.csv /user/hive/warehouse/db1.db/t3(不推荐使用)
  • load data [local]  inpath '/root/users.csv' into table t3;(不推荐使用,但是开发阶段使用较多)

2. Hive中的复合数据类型

2.1 数组类型array

  • 数据格式

   admin,12,java1-python1-java

   admin1,11,java-python1-java

   admin2,312,java-python-java

  • 创建表

  create table t4(name string,age int,loves array<string>) row format delimited fields terminated by ','  collection items terminated by '-'   lines terminated by '\n' ;

  • 加载数据

  - load data local  inpath  '/root/users04.csv' into table t4;

  

2.2 m

Hive是一个基于Hadoop的数据仓库工具,用于对大数据集进行管理和分析。基本的查询操作包括数据选择、过滤、排序以及聚合等。以下是Hive中常见的几个操作: 1. **SELECT**:这是最基本的操作,用于从中选取需要的数据。语法类似于SQL,可以指定列名、星号(*)所有列,还可以使用WHERE子句进行条件筛选。 示例: ```sql SELECT column1, column2 FROM table_name WHERE condition; ``` 2. **JOIN**:用于合并两个或更多中的数据,根据某些共同的字段(如ID)连接数据。有INNER JOIN、LEFT JOIN、RIGHT JOIN等类型。 ```sql SELECT * FROM table1 JOIN table2 ON table1.common_column = table2.common_column; ``` 3. **GROUP BY**:将结果按照一个或多个列进行分组,并对每个组应用聚合函数(如SUM、COUNT、AVG等)。 ```sql SELECT column1, COUNT(column2) FROM table_name GROUP BY column1; ``` 4. **ORDER BY**:按特定列对结果进行排序。可以指定升序(ASC)或降序(DESC)。 ```sql SELECT * FROM table_name ORDER BY column_name ASC/DESC; ``` 5. **LIMIT**:限制返回的结果行数。 ```sql SELECT * FROM table_name LIMIT 10; ``` 6. **CREATE TABLE AS SELECT (CTAS)**:这是一种创建新的方式,可以根据已有查询结果生成新的结构。 ```sql CREATE TABLE new_table AS SELECT * FROM old_table WHERE condition; ``` 记得,在Hive中执行任何查询前,你需要先加载数据到Hive Metastore,通常是通过HDFS或其他存储系统。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值