Spark Streaming 数据摄取与状态管理实践
1. 输出文件与启动流计算
在使用 Spark Streaming 时,输出文件可以是本地文件(如果运行的是本地集群),也可以是分布式 Hadoop 兼容文件系统(如 HDFS)上的文件。在开发流应用程序时,DStream 的 print(n) 方法很有用,它会打印出每个小批量 RDD 的前 n 个元素(默认是 10 个)。
启动流计算的步骤如下:
1. 启动流计算,使用以下命令:
scala> ssc.start()
此命令会启动流上下文,评估用于创建的 DStreams,启动接收器,并运行 DStreams 所代表的程序。在 Spark shell 中,执行此命令即可运行应用程序的流计算。接收器会在单独的线程中启动,你仍可以在流计算并行运行的同时,使用 Spark shell 输入和运行其他代码。
需要注意的是,虽然可以使用同一个 SparkContext 对象构造多个 StreamingContext 实例,但同一 JVM 中一次只能启动一个 StreamingContext。如果在独立应用程序中启动流上下文,接收器线程会启动,但驱动程序的主线程会退出,除非添加以下代码:
ssc.awaitTermination()
此代码会让 Spark 等待 Spark Streaming 计算停止。你还可以使用 awaitTerminat
超级会员免费看
订阅专栏 解锁全文
1201

被折叠的 条评论
为什么被折叠?



