首先,必须保证列没有空值,如果有,则需要drop
colName 为 列名
data = data.na.drop(s"$colName")
输出格式为Array[Any] ()
data0.select(s"$colname").collect().map(_(0))
输出为Array[String]
data0.select(s"$colname").collect().map(_(0).toString)
输出为Array[Double]
data0.select(s"$colname").collect().map(_(0).Double)
本文介绍如何使用Apache Spark进行数据清洗,确保数据质量。包括去除空值、转换数据类型等操作,通过具体代码示例展示了常见数据清洗任务的实现。
2万+

被折叠的 条评论
为什么被折叠?



