apach zeppelin中使用spark streaming:基本功能

最新推荐文章于 2024-07-07 00:58:10 发布

原创

最新推荐文章于 2024-07-07 00:58:10 发布 · 2.4k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#zeppelin #spark #spark-streaming

一．需求

在使用spark-streaming 处理流式任务时，由于spark-shell需要登录到和生产集群相连的机器开启，使用起来也有诸多不便，且默认不支持kafka等源，所以萌生使用zeppelin 中的spark interpreter来完成streaming 任务．

二．尝试

在网上找到了一个改版的zeppelin版wordcount例子．

第一步启动nc 监听端口7777

第二步在zeppelin spark interpreter 中启动streming任务

%spark

sc.version
import org.apache.spark.streaming._
import org.apache.spark.streaming.StreamingContext
import org.apache.spark.streaming.StreamingContext._
import org.apache.spark.streaming.dstream.DStream
import org.apache.spark.streaming.Duration
import org.apache.spark.streaming.Seconds
case class Message(createdAt:Long, text:String)
val ssc = new StreamingContext(sc, Seconds(10))
val lines = ssc.socketTextStream("10.104.90.40", 7777)
val errorLines = lines.window(Seconds(10))
val message = errorLines.map(status=>
Message(System.currentTimeMillis()/1000, status)
).foreachRDD(rdd=>
if (rdd.isEmpty()==false) {
rdd.toDF().registerTempTable("message")}
)
errorLines.print
ssc.start()