将pySpark将array列展开为pandas单独列
将pySpark将array列展开为pandas单独列写在前面的话pyspark列展开
写在前面的话
这一系列主要记录我工作中遇到的一些问题,以及相应的解决办法。希望对大家能有帮助。
pyspark列展开
假设我们的数据中有4列,col_A,col_B,col_C和col_D,其中列A和列B都是数组列,我们需要将这两列进行展开,数组中的每一维都展开为一列。代码如下:
#获取数据中的第一行,主要是为了获取数组长度
first_row = raw_data.first()
#数组列
array_cols = [
原创
2021-05-29 10:24:47 ·
1221 阅读 ·
0 评论