【spark】spark dataframe空值·部分原因
今天在写一个spark job(pyspark)时又遇到了,又遇到了数据处理的两大拦路虎之一的空数据问题,检查数据源,确定不会有空值后,开始检查代码。最终发现是代码的前任维护者使用了一个字符串作为一个long type的默认初始值导致的。如下,对于错误的数据类型,在类型推断确定类型后,遇到无法转换的数据类型,spark会将对应字段填为空值。另外,我这里用的是rdd,因为rdd是一个本地类型,也即是python类型,所以rdd允许dataset中数据类型不一样(python特性决定的),而在toDF()执
原创
2020-11-24 22:43:38 ·
1951 阅读 ·
0 评论