- 博客(3)
- 收藏
- 关注
原创 Spark 复习(期末考试总结)
在创建SparkSession对象时,也已经创建了SparkContext对象,因此,需要从SparkSession对象中获得SparkContext对象。每次进行Action操作,都是重新开始,即从读取数据开始,效率低下。因此,当需要对一个RDD进行多次Action操作之前,应该先进行持久化。:设置检查点后,就可以从检查点开始恢复某些丢失的rdd了,因此就不需要之前的血统了。持久化操作仍存在丢失的风险,所以可以使用checkpoint,设置一个还原点(相当于持久化磁盘)
2023-05-19 13:55:31
1700
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人