【方法1:在spark UI中查看】
在spark脚本运行后,打开spark UI的Storage界面,便能看到当前已缓存的所有rdd

【方法2:利用tempView和catalog】
先把数据注册为临时表,然后可以通过catalog来检查临时表是否已缓存
package high_quality._history
import org.apache.log4j.{Level, Logger}
import org.apache.spark.sql.SparkSession
object test {
def main(args: Array[String]) {
Logger.getRootLogger.setLevel(Level.ERROR)
val spark = SparkSession.builder().master("local[*]").getOrCreate()
import spark.implicits._
// 构造一个DataFrame
val df = Seq("1").toDF("value")
df.createTempView("tmp_df")
// 创建一个catalog
val catalog = spark.catalog
// 打印所有数据库的名称
catalog.listDatabases().select("name").show()
// 打印所有临时表的名称
catalog.listTables().select("nam

本文介绍了两种检查Spark DataFrame或RDD是否已缓存的方法:1) 通过Spark UI的Storage界面查看;2) 注册tempView后利用catalog进行检查。
最低0.47元/天 解锁文章
2万+

被折叠的 条评论
为什么被折叠?



