- 博客(24)
- 收藏
- 关注
原创 列转行-posexplode多列对应转行
现有骑手id,订单id列表,订单配送距离列表,配送费列表,其中订单id、配送距离、配送费一一对应。二、函数介绍splitposexplode三、列转行原始数据中order_list中的数据,与distance_list、payment_list内的数据,一一对应,请将数据拆解出rider_id、order_id,distance,payment,其中distance和payment为对应订单id的距离和配送费。期望结果1、posexplode函数实现带位置的炸裂我们通过posexplode
2024-09-08 18:58:05
906
原创 列转行-explode_outer及lateral view outer
现有骑手id,订单id列表,订单配送距离列表,配送费列表,其中订单id、配送距离、配送费一一对应。二、函数介绍explodesplitexplode_outer三、列转行将骑手及其订单转换成订单粒度,每单一行记录。需要把骑手r004数据进行展示期望结果1、lateral view outer explode方案先将字符串通过split函数转换成array,然后使用explode炸开,即可得到最终结果。这里我们不在使用lateral view 而是使用lateral view outer
2024-09-08 18:56:55
606
原创 列转行-lateral view explode列转行
现有骑手id,订单id列表,订单配送距离列表,配送费列表,其中订单id、配送距离、配送费一一对应。二、函数介绍explodesplit三、列转行将骑手及其订单转换成订单粒度,每单一行记录。期望结果1、解决方案先将字符串通过split函数转换成array,然后使用explode炸开,即可得到最终结果。执行结果2、注意由于我们使用了lateral view横向视图与explode结合炸裂,我们会发现 骑手r004因为其order_list为空没有出现在最终结果中。原因为在explode处
2024-09-05 22:31:13
573
原创 多列一一对应
有配送订单表记录骑手配送的物品类型、送达时间、顾客id、配送举例及配送费。二、函数介绍collect_listconcat_wstransformsplitsort_array三、有序行转列根据配送订单记录表,查询出骑手id,配送订单id列表、距离列表、配送费列表,要求三列中的数据按照送达时间顺序,且一一对应;期望结果分析首先要求按照送达时间排序,且要求多列一一对应,所以我们把所有的数据拼接到一起,按照时间排序后再进行拆分。使用concat_ws将时间字段与其他需要字段进行拼接,因为需
2024-09-04 23:53:26
448
原创 简单行转列
collect_list(expr) - 收集并返回一个非唯一元素的列表[1,2,1]注意该函数是非确定性的,因为收集结果的顺序取决于行的顺序,这在经过shuffle之后可能是不确定的。collect_set(expr) - 收集并返回一个唯一元素的集合。[1,2]注意该函数是非确定性的,因为收集结果的顺序取决于行的顺序,这在经过shuffle之后可能是不确定的。sort_array(array[, ascendingOrder]) - 根据数组元素的自然顺序,将输入数组排序为升序或降序。
2024-09-03 22:54:22
843
原创 常见大数据面试SQL-各用户最长的连续登录天数-可间断
现有各用户的登录记录表t_login_events如下,表中每行数据表达的信息是一个用户何时登录了平台。现要求统计各用户最长的连续登录天数,间断一天也算作连续,例如:一个用户在1,3,5,6登录,则视为连续6天登录。
2024-07-09 22:17:40
366
原创 一文搞懂连续问题
我们写过各式各样的连续,今天我们做一个总结。连续问题考察范围可能涉及到:开窗函数,lag函数,row_number(),sum()over(order by) 等各种函数,以及相关数据处理技巧等,无论选取那种方法,连续问题都是相对较为复杂,考察综合能力的一类问题。
2024-07-09 22:16:19
806
原创 常见大数据面试SQL-各用户最长的连续登录天数-可间断
现有各用户的登录记录表t_login_events如下,表中每行数据表达的信息是一个用户何时登录了平台。现要求统计各用户最长的连续登录天数,间断一天也算作连续,例如:一个用户在1,3,5,6登录,则视为连续6天登录。
2024-07-09 07:57:06
489
原创 常见大数据面试SQL-查询每个学科第三名的学生的学科成绩总成绩及总排名
有学生成绩表,包含学生姓名、学科、成绩三个字段,请用一条SQL查询出每个学科排名第三名的学生,他的学科成绩、总成绩、以及总排名。
2024-07-09 07:55:12
1050
原创 常见大数据面试SQL-查询前2大和前2小用户并有序拼接
有用户账户表,包含年份,用户id和值,请按照年份分组,取出值前两小和前两大对应的用户id,**注意:**需要保持值最小和最大的用户id排首位。
2024-07-04 22:06:09
364
原创 百度大数据面试SQL-连续签到领金币
有用户签到记录表,t_coin_signin,记录用户当天是否完成签到,请计算出每个用户的每个月获得的金币数量;签到领金币规则如下:用户签到获得1金币;如果用户连续签到3天则第三天获得2金币,如果用户连续签到7天则第7天获得5金币;连续签到7天后连续天数重置,每月签到天数重置;
2024-07-04 22:02:26
655
原创 大数据开发SQL面试题50题(含答案)
本文整理了互联网大厂数据开发、数据分析、数仓等数据相关岗位面试过程中经常出现的SQL面试题,并给出了参考答案。涉及了炸裂函数、开窗函数、聚合函数开窗、在线直播人数等 以及这两年各大厂面疯了各种连续问题。
2024-06-22 09:47:27
2464
原创 滴滴大数据面试SQL-取出累计值与1000差值最小的记录
本文首发在,网站种整理了几十篇各大公司大数据开发岗位、数据仓库、数据分析相关岗位实际面试SQL题目,并给出了对应的参考答案。
2024-06-16 17:03:35
722
1
原创 字节跳动大数据面试SQL-共同使用ip用户检测问题
本文首发在,网站种整理了几十篇各大公司大数据开发岗位、数据仓库、数据分析相关岗位实际面试SQL题目,并给出了对应的参考答案。
2024-06-16 17:00:39
461
原创 字节跳动大数据面试SQL-查询最近一笔有效订单
本文首发在,网站种整理了几十篇各大公司大数据开发岗位、数据仓库、数据分析相关岗位实际面试SQL题目,并给出了对应的参考答案。
2024-06-16 16:58:11
545
2
原创 快手大数据面试SQL-用户中两人一定认识的组合数
本文首发在,网站种整理了几十篇各大公司大数据开发岗位、数据仓库、数据分析相关岗位实际面试SQL题目,并给出了对应的参考答案。
2024-06-16 16:55:14
486
原创 三一重工大数据面试SQL-部门人员数据分析
本文首发在,网站种整理了几十篇各大公司大数据开发岗位、数据仓库、数据分析相关岗位实际面试SQL题目,并给出了对应的参考答案。
2024-06-16 16:50:20
1139
原创 awk-处理文件分组统计,分组求和、取最大最小值,取最大最小记录
一、分组求和并排序1.存在文件groupsum.txt原始数据如下,对下面的文件根据第四列进行分组,并对1,2,3列进行求和。0.2 0.3 0.5 10.3 0.1 0.2 30.4 0.2 0.3 10.2 0.2 0.2 20.3 0.3 0.3 20.3 0.2 0.6 30.1 0.1 0.1 4原始数据如上统...
2018-05-03 16:46:26
7147
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人