Hive常用函数

最新推荐文章于 2024-05-29 17:57:09 发布

原创最新推荐文章于 2024-05-29 17:57:09 发布 · 581 阅读

1 ·

CC 4.0 BY-SA版权

Hive 专栏收录该内容

21 篇文章

订阅专栏

本文详细介绍Hive SQL中常用的数据处理操作，包括计数、求最大值、最小值、总和、平均值等统计函数的使用方法，以及Limit语句、空字段赋值、条件判断、行列转换等高级功能，帮助读者掌握Hive SQL的基本技能。

1．count

hive (default)> select count(*) cnt from emp;

2．最大值max

hive (default)> select max(sal) max_sal from emp;

3．最小值min

hive (default)> select min(sal) min_sal from emp;

4．总和sum

hive (default)> select sum(sal) sum_sal from emp;

5．平均值avg

hive (default)> select avg(sal) avg_sal from emp;

6.Limit语句

典型的查询会返回多行数据。LIMIT子句用于限制返回的行数。

hive (default)> select * from emp limit 5;

7.空字段赋值

NVL：给值为NULL的数据赋值，它的格式是NVL( value，default_value)。它的功能是如果value为NULL，则NVL函数返回default_value的值，否则返回value的值，如果两个参数都为NULL ，则返回NULL。

hive (default)> select comm, nvl(id,name) from emp;

8.case when

select 
  dept_id,
  sum(case sex when '男' then 1 else 0 end) male_count,
  sum(case sex when '女' then 1 else 0 end) female_count
from 
  emp_sex
group by
  dept_id;

9.行转列

CONCAT(string A/col, string B/col…)：返回输入字符串连接后的结果，支持任意个输入字符串;

CONCAT_WS(separator, str1, str2,...)：它是一个特殊形式的 CONCAT()。第一个参数剩余参数间的分隔符。分隔符可以是与剩余参数一样的字符串。如果分隔符是 NULL，返回值也将为 NULL。这个函数会跳过分隔符参数后的任何 NULL 和空字符串。分隔符将被加到被连接的字符串之间;

COLLECT_SET(col)：函数只接受基本数据类型，它的主要作用是将某字段的值进行去重汇总，产生array类型字段。

select
    t.base,
    concat_ws('|', collect_set(t1.name)) name
from
    (select
        name,
        concat(星座, ",", 血型) base
    from
        person_info) t
group by
    t.base;

10.列转行

EXPLODE(col)：将hive一列中复杂的array或者map结构拆分成多行。

LATERAL VIEW

用法：LATERAL VIEW udtf(expression) tableAlias AS columnAlias

解释：用于和split, explode等UDTF一起使用，它能够将一列数据拆成多行数据，在此基础上可以对拆分后的数据进行聚合。

//创建表并load数据
create table movie_info(
    movie string, 
    category array<string>) 
row format delimited fields terminated by "\t"
collection items terminated by ",";
load data local inpath "/opt/module/datas/movie.txt" into table movie_info;

//按照需求查找数据
select
    movie,
    category_name
from 
    movie_info lateral view explode(category) table_tmp as category_name;
//table_tmp是表别名，category_name是列别名。可以在select中使用他。