Spark SQL 数据操作与常用数据源使用指南
1. 元数据查看
Spark 会管理与每个托管或非托管表相关的元数据,这些元数据存储在 Catalog 中,Catalog 是 Spark SQL 中用于存储元数据的高级抽象。在 Spark 2.x 中,Catalog 的功能得到了扩展,新增了公共方法,可用于查看数据库、表和视图的元数据。
在 Spark 应用程序中,创建 SparkSession 变量 spark 后,可通过以下方法访问存储的元数据:
// In Scala
spark.catalog.listDatabases()
spark.catalog.listTables()
spark.catalog.listColumns("us_delay_flights_tbl")
# In Python
spark.catalog.listDatabases()
spark.catalog.listTables()
spark.catalog.listColumns("us_delay_flights_tbl")
2. SQL 表缓存
与 DataFrame 类似,SQL 表和视图也可以进行缓存和取消缓存操作。在 Spark 3.0 中,除了其他选项外,还可以将表指定为 LAZY ,即该表仅在首次使用时进行缓存,而非立即缓存:
超级会员免费看
订阅专栏 解锁全文
2685

被折叠的 条评论
为什么被折叠?



