自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 【spark学习】1-DAG什么是“内存计算”

DAG(Direct Acyclic Graph)无环图,图有两个基本元素:顶点和边,在Spark的DAG中,顶点是一个个RDD,边是RDD间通过dependencies属性构成的父子关系。以切土豆的Stage0为例,每个加工环节都会产出中间食材,如果把流水线比作内存,那么每个算子计算的中间结果都会进行缓存以备下一个算子运算,这样和滥用cache如出一辙。所以所谓内存计算,不仅仅是指数据可以缓存在内存中,更重要是让我们明白,通过计算的融合来大幅提升数据再内存中的转换效率,进而从整体上提升应用的执行性能。

2023-03-27 23:29:37 363

原创 【spark学习】0-RDD弹性分布式数据集

纵向属性用于在纵深方向构建DAG,通过提供构建RDD的容错能力保障内存计算的稳定性。经过发现可以发现:刚从地里挖出来的土豆,经过清洗后的干净土豆、生薯片、烤熟的薯片,流水线上这些食材的不同形态,就是Spark中RDD对于不同数据集合的抽象。每一种食材依赖前一种食材就像是RDD中dependenceies属性记录的依赖关系,而不同环节的加工方法,对于的是RDD的compute属性。每一颗土豆就是RDD中的数据分片,3颗土豆对应的就是RDD的partitions属性。

2023-03-27 23:11:02 107

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除