- 博客(29)
- 收藏
- 关注
原创 grouping sets和with cube以及array+explode做多维度聚合统计
1、如果汇总维度低于3个,且需要定制化,则用grouping sets,如果超过3个,则用array+explode2、如果汇总维度低于3个,且无需定制化,则用with cube,如果超过3个,则用array+explode
2023-11-16 01:22:33
260
原创 row_number结合case when选择性排序
row_number结合case when选择性排序,开窗函数花式用法,Partion by中使用case when
2023-11-16 00:29:55
1128
原创 hive中的sysdate到底是什么
hive中sysdate看似展现当前日期,类似current_date(),其实内部是完整时间戳,但他不可以当做current_timestamp去使用
2023-07-11 14:45:12
852
原创 date函数的在hive和mysql中的区别
1、在Hive中,截取日期尽量用substr,因为date只是展现形式和substr一致,并不是数据本身2、在mysql中,无所谓使用substr或date,效果完全一致
2023-06-20 18:04:25
278
原创 大数据之Kerberos认证
Kerberos 是一个网络身份验证协议,用于在计算机网络中进行身份验证和授权。它提供了一种安全的方式,允许用户在不安全的网络上进行身份验证,并获取访问网络资源的权限。
2023-05-15 12:18:59
5866
1
原创 join筛选条件位置不同的区别
本文将针对left join, inner join以及full join时筛选条件所在Join的前中后不同位置分别做剖析
2023-05-04 19:56:36
1082
原创 hive中trancelate和tranceform函数
trancelate用来替换字符串中的字符,而tranceform提供了在 SQL 中调用自写脚本的功能
2023-04-11 15:26:49
355
原创 关系型数据库Mysql和Oracle的区别
简要概述oracle和mysql的区别,并且对truncate和delete,distinct和group by等的区别做出解释
2023-03-28 20:06:03
233
原创 大数据分而治之(分桶表)的应用
关于大数据场景分而治之思想的一些实践方案,包括分桶表,distribute by+sort by以及row_number的一些特殊使用场景,以及什么时候该如何选择
2023-03-13 21:54:28
346
原创 Hive和Spark对分区字段的处理区别
读parquet文件时对于分区字段的处理,hive不会在意文件中是否有分区字段,而spark的read.parquet方法则不相同
2023-03-02 21:20:51
982
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人