1. 问题背景
这段代码长下面这个样子。
我的目标是将spark.DataFrame数据类型转换为可以在python中接受的数据格式以便能够画图进行可视化分析。方式1是将spark.DataFrame转换成spark.RDD然后再以list格式返回给驱动程序,再转换为字典的数据格式。想法很美好,但是一直无法运行,并且让我纠结了两个小时。方式2是在洗漱时候突然想到的解决方法,直接将spark.DataFrame转换成pandas.DataFrame。
我要反思的问题是:我为何会陷入方法1,沉迷转换字典这条道路?有什么避免此类问题的办法?
# 方式1:将采样数据转换成dict类型:{'balance', [vla, val, ...]}
data_multi = dict([(elem, data_sample.select(elem)\
.rdd