利用spark streaming从kafka读取数据,进行流数据的统计分析,最后产生dstream类型的结果集,但是涉及到数据的保存时,遇到了一点小障碍。
我们都知道,spark中普通rdd可以直接只用saveAsTextFile(path)的方式,保存到本地,hdfs中,但是dstream对象没有saveAsTextFile()方法,只有saveAsTextFiles()方法,而且,其参数只有
prefix: String, suffix: String = ""
官方api对该方法的介绍如下:
Save each RDD in this DStream as at text file,using string representation of elements. The file name at each batch intervalis generated based onprefix
and suffix
:"prefix-TIME_IN_MS.suffix".
大致意思是将prefix与suffix后缀,中间加上time来拼接,找不到输入path的地方,此处纠结了好久。
后来通过查看源码可以发现这里边有个地方一直被忽视了。
源码如下:
def
saveAsTextFiles(prefix: String, suffix:
String = ""): Unit = ssc.withScope {
val saveFunc = (rdd: RDD[T], time: Time) => {
val file = rddToFileName(prefix, suffix,time)
rdd.saveAsTextFile(file)
}
this.foreachRDD(saveFunc)
}
其实在saveAsTextFiles方法中又调用了saveAsTextFile方法,所以path路径应该是在此处指定的,即:我们需要将path包含在prefix中。
至此,我想前边的疑惑也就全部都解开了。
saveAsTextFiles()方法的用法其实跟saveAsTextFile()一模一样,只不过比它多了一个拼接时时间的过程。
所以,我们保存dstream对象,完全可以这样写:
Val result_predict=model.predictOnValues(test_data).map(ss=>(ss._1+","+ss._2)).map(lines=>lines.split(","))
.map(arr=>(arr(0),arr(1),arr(2),"crm_ia_loginqry"))
result_predict.print()
result_predict.saveAsTextFiles("hdfs://ip:port/home/songsf/data/result1")