hive Tutorial

最新推荐文章于 2025-09-11 16:40:35 发布

weixin_34194702

最新推荐文章于 2025-09-11 16:40:35 发布

阅读量108

点赞数

CC 4.0 BY-SA版权

文章标签：大数据数据库 java

原文链接：http://www.cnblogs.com/koushr/p/9574889.html

本文介绍了Hive中数据组织的粒度层级，包括数据库、表、分区和桶的概念及应用。同时概述了Hive支持的数据类型和常用SQL操作，如DDL、DML等。

hive数据单元按照粒度从大到小，依次为

1、数据库database：可以用show databases; 命令查看所有的数据库，并用use d1; 命令来选中d1数据库，接下来就可以操作d1数据库中的表了。

2、表table：可以用show tables; 命令查看当前库中所有的表。

3、分区partition：每一个表都可以有一个或者多个分区key，这些分区key决定了数据的存储方式。分区，除了作为存储单元外，还允许用户有效地识别满足特定标准的行。分区key的每一个值都定义了该表的一个分区。例如，某表有一个string类型的date_partition和一个string类型的country_partition，则"2009-12-23"中的所有"US"数据属于该表的同一个分区。因此，如果仅对"2009-12-23"的"US"数据进行分析，则只会在表的相关分区上运行查询，从而显著加快分析速度。分区列是虚拟列，它们不是数据本身的一部分，而是在加载时派生的。

4、桶bucket：每个分区中的数据又可以基于表的某些列的hash值被划分为桶。桶可用于有效地采样数据。

值得注意的是，表分区和桶不是必须的，但这些可以使得系统在查询处理期间过滤掉大量数据，从而加快查询执行速度。

Hive字段支持原始类型及复杂类型：

原始类型：

整型，有tinyint(1字节整数)、smallint(2字节整数)、int(4字节整数)、bigint(8字节整数)；

boolean类型，true或者false；

浮点数，有float(单精度)和double(双精度)；

定点数(fixed point number)，decimal；

字符串类型，有string、varchar、char；

日期和时间类型，有timestamp和date；

二进制类型(binary type)，binary(字节序列)。

需要额外注意的是，string类型可以被隐式转为double类型。

复杂类型：

struct：如column c的类型是struct {a int; b int}，则a的值可以通过c.a得到

map：

array：里面的元素类型必须相同。如column a的类型是array，则可以通过a[0]、a[1]获取第一、二个元素

内建的运算符和函数

可以在beeline命令行使用show functions; 命令查看所有的运算符和函数。

还可以用describe function function_name; 命令查看某运算符或函数的用法解释。

实际发现，大多数运算符和函数都和java中的运算符和方法作用一样，遇到不一样的，再describe function 查看具体用法即可。

聚合函数返回值类型：

除count返回bigint类型外，sum、avg、min和max都返回double类型。

Hive SQL能做什么？

1、常规的DDL语句，create、drop、alter

2、常规的DML语句，load、insert、update、delete、select、where、join、group by、union

3、把查询结果存储到另外一个表中、hdfs中

4、把hive表的内容下载到本地目录

5、Ability to plug in custom scripts in the language of choice for custom map/reduce jobs

转载于:https://www.cnblogs.com/koushr/p/9574889.html

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。