- 博客(2)
- 收藏
- 关注
原创 【spark学习】1-DAG什么是“内存计算”
DAG(Direct Acyclic Graph)无环图,图有两个基本元素:顶点和边,在Spark的DAG中,顶点是一个个RDD,边是RDD间通过dependencies属性构成的父子关系。以切土豆的Stage0为例,每个加工环节都会产出中间食材,如果把流水线比作内存,那么每个算子计算的中间结果都会进行缓存以备下一个算子运算,这样和滥用cache如出一辙。所以所谓内存计算,不仅仅是指数据可以缓存在内存中,更重要是让我们明白,通过计算的融合来大幅提升数据再内存中的转换效率,进而从整体上提升应用的执行性能。
2023-03-27 23:29:37
363
原创 【spark学习】0-RDD弹性分布式数据集
纵向属性用于在纵深方向构建DAG,通过提供构建RDD的容错能力保障内存计算的稳定性。经过发现可以发现:刚从地里挖出来的土豆,经过清洗后的干净土豆、生薯片、烤熟的薯片,流水线上这些食材的不同形态,就是Spark中RDD对于不同数据集合的抽象。每一种食材依赖前一种食材就像是RDD中dependenceies属性记录的依赖关系,而不同环节的加工方法,对于的是RDD的compute属性。每一颗土豆就是RDD中的数据分片,3颗土豆对应的就是RDD的partitions属性。
2023-03-27 23:11:02
107
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人