
pyspark
静静_jingjing
重庆理工大学在读研究生萌新一枚~~~还需要多多学习~~希望大家多多指教 自己开心顺利地毕业 欧耶~~~~
展开
-
pyspark踩坑记录
经过一系列操作后 df4 = df3.join(df) # join出来会是空置,因为是两条DAG合并,df3是一条DAG,执行了limit , df是一条DAG,也执行了limit,两次limit的可能是从不同的分区各拿的1000条数据,因此join不上,join为空。1. df = hc.sql(..... limit 1000) # limit 具有随机性。然后df2 = df.xxx df3 = df2.xxx。原创 2023-03-01 10:49:58 · 372 阅读 · 3 评论 -
pyspark udf returnType=ArrayType中是不同数据类型
pyspark udf returnType=ArrayType中是不同数据类型然后id_list collect_list之后还能按照第一个位置的元素进行排序。原创 2023-02-22 16:16:21 · 670 阅读 · 2 评论 -
pyspark 根据字典添加多列
一 踩坑记录,这种参考pyspark Spark从字符串中提取值并分配为列 - 糯米PHP 行不通 出来的都是空值 二 可行办法一的代码 结合 https://www.5axxw.com/questions/content/l8m75h age_new是str(dict)的形式 即"{'frist' : 21, 'second' : 22}" jupyter 代码放在网盘里了:链接: https://pan.baidu.com/s/1OgVraHO76b8xWhAF7mARbg?pwd=hmj7 提原创 2022-12-06 17:21:10 · 489 阅读 · 0 评论 -
pyspark.sql.types.MapType()的使用
pyspark.sql.types.MapType()的使用原创 2022-12-06 10:01:44 · 486 阅读 · 0 评论 -
PySparkSql定义udf 返回类型为字典类型的
PySparkSql定义udf 返回类型为字典类型的原创 2022-12-05 21:41:51 · 797 阅读 · 2 评论 -
PySparkSql定义udf 返回类型为ArrayType
PySparkSql定义udf 返回类型为ArrayType原创 2022-12-05 21:25:45 · 1129 阅读 · 0 评论