Hive函数篇

原创

已于 2023-08-21 18:19:51 修改 · 2.1k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#hive #大数据 #hadoop

于 2019-06-10 23:17:52 首次发布

引言

Hive是基于hadoop的数据仓库工具，能够将一张结构化的数据文件映射为一张数据库表。以便于在Hive中通过类似于传统sql（Hive中我们叫hql）做数据分析等工作。Hive默认计算模型是MapperReduce，将hql转换成MR任务进行计算；在Hive中还有Hive on Spark的模式，这里仅做了解。本文主要是在工作中使用Hive的时候，对一些用到的函数进行记录，以便后续查阅，也供其他同学们参考及互相交流知识。

函数

时间函数

1、unix_timestamp()、unix_timestamp(STRING date)、unix_timestamp(STRING date,STRING pattern)
返回本地时间当前时间搓，date默认格式 yyyy-MM-dd hh:mm:ss，可通过pattern设置时间格式。

示例1：
select unix_timestamp();

示例2：
select unix_timestamp('2019-06-11 10:10:10');

示例3：
select unix_timestamp('20190611','yyyyMMdd');

2、from_unixtime(BIGINT unixtime[,STRING format]) 将时间搓秒数转换成UTC时间

示例：
select from_unixtime(unix_timestamp('20190611' ,'yyyymmdd'), 'yyyy-mm-dd');

3、to_date(string date) ：返回时间字符串日期部分

示例：
select to_date("1993-01-01 00:12:12");

4、datediff(string enddate,string startdate) 返回endDate和startDate相差的天数

初步验证了下，datediff函数只是简单天相减，与小时无关。

排序函数

1、first_value()：取分组排序后，当前行的第一个值。
常用于：首次消费门店，首次消费类字段
last_value()：取分组排序后，当前行的最后一个值
常用于：最近消费门店，最近消费类字段

数据准备
shop_order.txt
001,耐克,2019-06-01
002,安踏,2019-06-01
003,李宁,2019-06-02
001,阿迪达斯,2019-06-03
001,李宁,2019-06-05
002,耐克,2019-06-05
003,耐克,2019-06-05
004,乔丹,2019-06-05

hive建表
create table shop_order(
zvip string,
shopname string,
orderdate string
) row format delimited fields terminated by ',';
我这里在测试的时候，将orderdate的数据类型设置为date，但在做查询的时候报错：Underlying error: Primitve type DATE not supported in Value Boundary expression；暂把orderdate类型设置为string类型，仅做了个简单的建表。

导入数据
hive -e "load data local inpath 'shop_order.txt' into table shop_order"

hql执行函数示例
执行语句1：
select zvip, --会员编号
orderdate,--订单时间
shopname,--门店名称
row_number() over(partition by zvip order by orderdate asc), --开窗函数对分组进行排序
first_value(shopname) over(partition by zvip order by orderdate),-- 首次消费门店，取第一个值
last_value(shopname) over(partition by zvip order by orderdate) -- 最近消费门店，取最后一个值
from shop_order;
结果：

结果分析：可以看到last_value()中的值都不相同，通过查度娘发现last_value()默认统计范围是 rows between unbounded preceding and current row；对语

最低0.47元/天解锁文章