//json文件
//{"page_id":"87","pay_category_ids":"99","pay_product_ids":"96","city_id":5}
//{"pay_category_ids":"74","city_id":0}
val df = sparkSession.read.json("./src/data/test")
df.show()
df.rdd.foreach(row => {
println("getAs: "+row.getAs[String]("page_id"))
println("isNull: "+row.isNullAt(1)) //
val tp = row.getAs[String]("page_id")
println("==Null:",tp == null)
println("getLong:", row.getString(1))
})
突然想起之前项目中有些许问题未处理
今天研究一番
从row中get值时, 经常遇到空的问题
简单总结如下:
get数值类型:如果为空, 则转化为0
判空, 建议使用row.isNullAt(index)
get字符串类型:如果为空则为null
判空建议用:StringUtils.isEmpty() (出现""的情况)
总结:获取值用getAsT
判空用row.isNullAt
以及StringUtils.isEmpty()
博客探讨了在Spark项目中遇到的数据空值问题,强调了在获取数值和字符串类型值时进行空值检查的重要性。建议使用`row.isNullAt(index)`进行数值类型的空值判断,对于字符串则推荐使用StringUtils.isEmpty()方法,确保在处理空值时的正确性。此外,还总结了在获取数据时使用`getAs[T]`方法的实践心得。
1104

被折叠的 条评论
为什么被折叠?



