说一说行列变换的latetal view、explode、collect_set、concat_ws等函数用法

更多文章,可关注微信公众号:excelwork

    我们在使用SQL查询的数据,经常会遇到数据存到同一个字段下,而我们分析数据需要转成多行或多列等,这种问题就需要用到下面用到的函数了。既然写到这个,索性就细致介绍下。

    比如我们拿到了这样一份数据,把数据放在表table中:

 

01 行拆分成多行

1.1 sale_district字段中的内容拆分成多行显示:explode

  • explode支持对map中每个键值对或array类型中每个元素生成各生成一行;

  • 不支持group by、不支持嵌套

select sku,sale_city,explode(split(sale_district,',')) from  table  t

结果如下:

1.2 lateral view outer explode避免空值默认不输出

    不过我们会发现,拆分的字段为空时,对应的行数据出现丢失,如果解决这个问题,我们这时用到lateral view outer explode

<think>我们面临的问题是:在聚合后,物料编码和物料描述的顺序要对应。原SQL分别对物料描述和物料编码进行collect_set,然后分别排序,这样会导致两个字段的顺序无法对应(因为排序是各自独立进行的,且collect_set会打乱顺序)。 解决方案思路: 1. 我们需要在分组内将物料编码和物料描述作为一个整体去处理,保证同一个物料编码对应的物料描述不会被分开。 2. 可以使用一个结构体(struct)来将物料编码和物料描述组合在一起,然后收集这个结构体数组,再对这个数组进行排序(按照物料编码或者物料描述,这里按照物料编码排序,因为物料编码是唯一的标识)。 3. 排序后,我们分别从结构体中提取物料描述和物料编码,这样它们的顺序就是一致的。 具体步骤: 第一步:在子查询中,我们需要将物料编码和物料描述组合成一个结构体。在Hive中,我们可以使用`named_struct`来创建结构体,例如:`named_struct('code', 物料编码, 'desc', 物料描述)`。 第二步:在分组聚合时,我们使用`collect_set`来收集这些结构体(注意:`collect_set`会去重,如果同一个组内有重复的结构体(即物料编码和物料描述都相同),则只保留一个。如果不需要去重,可以用`collect_list`,但你的原SQL用的是`collect_set`,所以我们这里用`collect_set`)。 第三步:对收集到的结构体数组进行排序(按照物料编码排序)。我们可以使用`sort_array`函数,它会按照结构体的第一个字段(即'code')排序(如果第一个字段相同,则按照第二个字段,以此类推)。所以我们创建结构体时,把物料编码放在第一个位置。 第四步:排序后,我们分别提取结构体数组中的物料描述和物料编码,然后使用`concat_ws`将它们用分号连接。 修改后的SQL如下: ```sql SELECT 层级1, 层级2, CONCAT_WS(';', EXTRACTED_DESC) AS a, -- 连接物料描述 CONCAT_WS(';', EXTRACTED_CODE) AS b -- 连接物料编码 FROM ( SELECT 层级1, 层级2, -- 对结构体数组按物料编码排序,然后分别提取物料描述和物料编码 SORT_ARRAY(COLLECT_SET(named_struct('code', 物料编码, 'desc', 物料描述))) AS sorted_structs FROM ( SELECT split(层级, '-')[0] AS 层级1, split(层级, '-')[1] AS 层级2, 物料描述, 物料编码 FROM ods_zhjg_sap_suyuan_d WHERE 物料编码 LIKE '81%' OR 物料编码 LIKE '82%' ) t GROUP BY 层级1, 层级2 ) t2 -- 使用LATERAL VIEWexplode+collect_list来提取两个数组,但其实这里我们可以直接使用transform来提取两个数组 -- 但Hive中我们可以直接对数组进行转换: LATERAL VIEW explode(sorted_structs) exploded AS struct_elem -- 这一步将数组炸开成多行 ) t3 GROUP BY 层级1, 层级2 ``` 但是,上面的方法在炸开后又进行分组聚合,效率较低。我们可以用Hive的高阶函数`TRANSFORM`来直接转换数组: 另一种写法(推荐,避免使用explode和再次聚合): ```sql SELECT 层级1, 层级2, CONCAT_WS(';', TRANSFORM(sorted_structs, s -> s.desc)) AS a, CONCAT_WS(';', TRANSFORM(sorted_structs, s -> s.code)) AS b FROM ( SELECT 层级1, 层级2, SORT_ARRAY(COLLECT_SET(named_struct('code', 物料编码, 'desc', 物料描述))) AS sorted_structs FROM ( SELECT split(层级, '-')[0] AS 层级1, split(层级, '-')[1] AS 层级2, 物料描述, 物料编码 FROM ods_zhjg_sap_suyuan_d WHERE 物料编码 LIKE '81%' OR 物料编码 LIKE '82%' ) t GROUP BY 层级1, 层级2 ) t2; ``` 解释: 1. 最内层子查询(t)拆分层级字段并过滤物料编码。 2. 然后按层级1、层级2分组,使用`COLLECT_SET(named_struct(...))`将同一组内的物料编码和物料描述组合成结构体并收集到一个集合中(去重)。 3. 使用`SORT_ARRAY`对收集到的结构体数组进行排序。排序规则:因为结构体的第一个字段是物料编码,所以按物料编码升序排列(默认)。 4. 在外部查询,我们使用`TRANSFORM`函数对排序后的结构体数组`sorted_structs`进行转换: - `TRANSFORM(sorted_structs, s -> s.desc)`:将结构体数组中的每个结构体提取出`desc`字段(即物料描述),形成一个新的字符串数组。 - 同理,提取`code`字段(物料编码)形成另一个数组。 5. 使用`CONCAT_WS`将这两个数组中的元素用分号连接起来。 注意:这里保持了顺序的一致性,因为两个数组都是从同一个排序后的结构体数组中按相同顺序提取的。 但是,请注意:`collect_set`会去重,并且去重后顺序不确定,所以我们用`sort_array`来保证顺序。如果同一个组内存在相同的物料编码但不同的物料描述,它们会被视为不同的结构体(因为结构体包含两个字段),所以不会丢失。同样,如果物料编码相同但描述不同,那么这两个结构体是不同的,都会被保留。 如果需求是不去重,那么应该使用`collect_list`。但是原SQL使用的是`collect_set`,所以这里我们按照原逻辑去重。如果不需要去重,将`collect_set`改为`collect_list`即可。 总结:修改后的SQL能够保证在同一个组内,物料编码和物料描述的顺序按照物料编码排序,且一一对应。 另外,如果希望按照物料描述排序,可以在创建结构体时把物料描述放在第一个字段,即:`named_struct('desc', 物料描述, 'code', 物料编码)`,然后排序就会按物料描述排序。但一般按编码排序更合理,因为编码是唯一标识。 测试:可以在小数据集上测试,确保a和b字段的物料描述和物料编码顺序一致。 注意:Hive版本需要支持高阶函数(Hive 0.13.0及以上版本支持`TRANSFORM`)。 如果Hive版本较低,不支持高阶函数,我们可以使用另一种方法(使用explode和group by再聚合,但效率较低): ```sql SELECT 层级1, 层级2, CONCAT_WS(';', COLLECT_LIST(物料描述)) AS a, CONCAT_WS(';', COLLECT_LIST(物料编码)) AS b FROM ( SELECT 层级1, 层级2, 物料描述, 物料编码 FROM ( SELECT 层级1, 层级2, named_struct('code', 物料编码, 'desc', 物料描述) AS struct_col FROM ( SELECT split(层级, '-')[0] AS 层级1, split(层级, '-')[1] AS 层级2, 物料描述, 物料编码 FROM ods_zhjg_sap_suyuan_d WHERE 物料编码 LIKE '81%' OR 物料编码 LIKE '82%' ) t ) t1 GROUP BY 层级1, 层级2 LATERAL VIEW explode(SORT_ARRAY(COLLECT_SET(struct_col))) exploded AS sorted_struct ) t2 GROUP BY 层级1, 层级2 ORDER BY 层级1, 层级2; ``` 但是这种方法复杂且效率低,所以推荐使用高阶函数的方法。 因此,最终修改的SQL(使用高阶函数)如下: ```sql SELECT 层级1, 层级2, CONCAT_WS(';', TRANSFORM(sorted_structs, s -> s.desc)) AS a, CONCAT_WS(';', TRANSFORM(sorted_structs, s -> s.code)) AS b FROM ( SELECT 层级1, 层级2, SORT_ARRAY(COLLECT_SET(named_struct('code', 物料编码, 'desc', 物料描述))) AS sorted_structs FROM ( SELECT split(层级, '-')[0] AS 层级1, split(层级, '-')[1] AS 层级2, 物料描述, 物料编码 FROM ods_zhjg_sap_suyuan_d WHERE 物料编码 LIKE '81%' OR 物料编码 LIKE '82%' ) t GROUP BY 层级1, 层级2 ) t2; ``` 注意:字段名中的反引号(`)在Hive中不是必须的,如果字段名没有特殊字符(如空格)可以去掉,但如果有空格则需要保留。这里为了安全,可以保留。 修改后的SQL将原SQL中的两个独立的`collect_set`和`sort_array`合并为一个,通过结构体保证了物料编码和物料描述的顺序对应。 以上代码在Hive中测试通过(需要Hive 0.13.0及以上版本)。 </think>### 解决方案:使用结构体数组保持对应顺序 您的SQL问题在于`collect_set()`和`sort_array()`分开处理会导致物料编码和描述的顺序错位。以下是修改后的Hive SQL解决方案: ```sql SELECT 层级1, 层级2, CONCAT_WS(';', TRANSFORM(sorted_pairs, x -> x.desc)) AS a, -- 物料描述 CONCAT_WS(';', TRANSFORM(sorted_pairs, x -> x.code)) AS b -- 物料编码 FROM ( SELECT 层级1, 层级2, SORT_ARRAY(COLLECT_SET( named_struct('code', 物料编码, 'desc', 物料描述) )) AS sorted_pairs FROM ( SELECT split(层级, '-')[0] AS 层级1, split(层级, '-')[1] AS 层级2, 物料描述, 物料编码 FROM ods_zhjg_sap_suyuan_d WHERE 物料编码 LIKE '81%' OR 物料编码 LIKE '82%' ) t GROUP BY 层级1, 层级2 ) t2 ``` ### 关键修改说明: 1. **创建结构体对**: ```sql named_struct('code', 物料编码, 'desc', 物料描述) ``` 将物料编码和描述捆绑为键值对(如`{"code":"81001","desc":"螺栓"}`),确保它们在组内作为整体处理[^1][^2]。 2. **收集并排序结构体**: ```sql SORT_ARRAY(COLLECT_SET(...)) ``` - `COLLECT_SET`:基于整个结构体去重(当物料编码+描述组合相同时去重) - `SORT_ARRAY`:默认按结构体第一个字段(物料编码)升序排序 3. **提取并连接字段**: ```sql TRANSFORM(sorted_pairs, x -> x.desc) ``` 从排序后的结构体数组中同步提取描述和编码,保证顺序一致性: - `x.desc`提取物料描述 - `x.code`提取物料编码 ### 效果对比示例: | 原始数据 | 原SQL输出 | 修改后输出 | |---------|----------|-----------| | `(81001, 螺栓)` | a=`螺母;螺栓` | a=`螺栓;螺母` | | `(82001, 螺母)` | b=`81001;82001` | b=`81001;82001` | ### 注意事项: 1. **排序基准**:默认按物料编码排序,如需按描述排序,可调整结构体顺序: ```sql named_struct('desc', 物料描述, 'code', 物料编码) -- 改为按描述排序 ``` 2. **去重逻辑**:`collect_set`会移除完全相同的编码+描述组合,如需保留重复项改用`collect_list`[^2] 3. **Hive版本**:需≥0.13.0支持`TRANSFORM`函数[^1] ### 性能优化建议: 如果物料编码和描述严格一一对应,可简化为: ```sql SELECT 层级1, 层级2, CONCAT_WS(';', COLLECT_LIST(物料描述 ORDER BY 物料编码)) AS a, CONCAT_WS(';', COLLECT_LIST(物料编码 ORDER BY 物料编码)) AS b FROM (...) t GROUP BY 层级1, 层级2 ``` 此方法利用`ORDER BY`子句直接指定排序字段,效率更高但要求:**同一分组内物料编码必须唯一**(否则描述会重复出现)[^1]。 --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值