Hive SQL 日常工作使用总结

最新推荐文章于 2024-04-23 10:30:42 发布

原创最新推荐文章于 2024-04-23 10:30:42 发布 · 652 阅读

CC 4.0 BY-SA版权

10 篇文章

订阅专栏

本文介绍SQL中like和rlike操作符的使用方法，包括模糊匹配特定字符串及正则表达式的应用，同时讲解了如何通过转换时间戳来实现不同时间区间的数据统计，如30分钟或10分钟为单位的查询。

select uid from dw.today where tunittype like '%wew.%'

select uid from dw.today where tunittype rlike '.*(you|me).*'

点号(.)：表示和任意字符串匹配，星号(*)：表示重复“左边的字符串”，（x|y）表示和x或者y匹配

select uid from dw.today where not tunittype like '%wew.%'

工作中，需要查询某个区间的用户量，这个时候就需要对时间做处理，以便快速搞定

SELECT DISTINCT FROM_UNIXTIME(60*30*CAST(UNIX_TIMESTAMP("2017-11-11 13:23:23")/(60*30) AS BIGINT), 'yyyy-MM-dd HH:mm:ss')
FROM test_table

这里便将时间转化为13：00：00，记录的是13：00：00至13：30：00这段时间的数据量

SELECT DISTINCT FROM_UNIXTIME(60*10*CAST(UNIX_TIMESTAMP("2017-11-11 13:23:23")/(60*10) AS BIGINT), 'yyyy-MM-dd HH:mm:ss')
FROM test_table

总结：一个小时60分钟，一分钟60秒，按照时间单位的秒来转化为相应的区间

语法形式：

row_number() over (partition by 字段 a order by 计算项 b desc ) rank

rank 排序的名称；partition by：类似 hive 的建表，分区的意思；order by ：排序，默认是升序，加 desc 降序；这里按字段 a 分区，对计算项 b 进行降序排序