spark stream中的dstream对象saveAsTextFiles问题

本文详细介绍了如何使用SparkStreaming从Kafka读取数据进行流式数据分析,并解决了在保存DStream结果集时遇到的问题。通过源码分析,揭示了`saveAsTextFiles()`方法的实现细节,指出其实际保存路径的正确指定方式,从而有效解决了数据保存的困扰。文章还展示了如何灵活运用Spark Streaming与Kafka进行高效的数据流处理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

利用spark streaming从kafka读取数据,进行流数据的统计分析,最后产生dstream类型的结果集,但是涉及到数据的保存时,遇到了一点小障碍。

我们都知道,spark中普通rdd可以直接只用saveAsTextFile(path)的方式,保存到本地,hdfs中,但是dstream对象没有saveAsTextFile()方法,只有saveAsTextFiles()方法,而且,其参数只有

prefix: String, suffix: String = ""

官方api对该方法的介绍如下:

Save each RDD in this DStream as at text file,using string representation of elements. The file name at each batch intervalis generated based onprefix and suffix:"prefix-TIME_IN_MS.suffix".

大致意思是将prefix与suffix后缀,中间加上time来拼接,找不到输入path的地方,此处纠结了好久。

后来通过查看源码可以发现这里边有个地方一直被忽视了。

源码如下:

def saveAsTextFiles(prefix: String, suffix: String = ""): Unit = ssc.withScope {
  val saveFunc = (rdd: RDD[T], time: Time) => {
    val file = rddToFileName(prefix, suffix,time)
    rdd.saveAsTextFile(file)
  }
  this.foreachRDD(saveFunc)
}

其实在saveAsTextFiles方法中又调用了saveAsTextFile方法,所以path路径应该是在此处指定的,即:我们需要将path包含在prefix中。

至此,我想前边的疑惑也就全部都解开了。

 saveAsTextFiles()方法的用法其实跟saveAsTextFile()一模一样,只不过比它多了一个拼接时时间的过程。

所以,我们保存dstream对象,完全可以这样写:

Val result_predict=model.predictOnValues(test_data).map(ss=>(ss._1+","+ss._2)).map(lines=>lines.split(","))

     .map(arr=>(arr(0),arr(1),arr(2),"crm_ia_loginqry"))

   result_predict.print()

   result_predict.saveAsTextFiles("hdfs://ip:port/home/songsf/data/result1")

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值