
Spark大数据处理
文章平均质量分 58
大三春季学期(适用于数据科学与大数据技术专业)
tangjxycu
这个作者很懒,什么都没留下…
展开
-
BUG解决方案-提交集群运行错误
【代码】BUG解决方案-提交集群运行错误。原创 2024-04-18 11:11:34 · 259 阅读 · 0 评论 -
Lecture 7 Spark Core-RDD持久化
A3:转换算子的返回值100%是RDD, 而Action算子的返回值100%不是RDD. 转换算子是懒加载的, 只有遇到Action才会执行. Action就是转换算子处理链条的开关.CheckPoint是重量级保存RDD数据, 是集中存储, 只能存储在硬盘(HDFS)上, 设计上是安全的(不保留 RDD血缘关系)Cache是轻量化保存RDD数据, 可存储在内存和硬盘, 是分散存储, 设计上数据是不安全的(保留RDD 血缘关系)即,RDD缓存是一个整体,但是分散存储在各个节点(硬盘或内存)上。原创 2024-04-17 13:29:15 · 1016 阅读 · 2 评论