
Spark
文章平均质量分 90
阿年、嗯啊
做自己喜欢的事,品自己喜欢的茶,活成自己渴望的模样。
不骄不躁,认真做事,清楚做人,希望付出不会被辜负
展开
-
累加器 - 分布式共享写变量
累加器的基本使用,以及使用累加器可以在某些场景下避免shuffle从而提高性能原创 2024-02-14 12:09:11 · 1065 阅读 · 0 评论 -
横扫Spark之 - 9个常见的行动算子
Spark中常见的9个行动算子以及使用示例原创 2024-02-09 18:21:37 · 1090 阅读 · 0 评论 -
横扫Spark之 - 22个常见的转换算子
Spark中常见的22个转换算子以及使用示例原创 2024-02-09 17:10:45 · 1515 阅读 · 0 评论 -
横扫Spark之 - RDD(Resilient Distributed Dataset)弹性分布式数据集
Spark中最基本的数据抽象 - RDD,既然叫弹性分布式数据集,那如何理解这个弹性、分布式、数据集最后RDD的5个主要特性分别是什么含义原创 2024-01-30 14:22:46 · 1699 阅读 · 0 评论 -
源码跟踪,案例详解Spark的分区规则
spark的RDD分区规则,不指定分区时的默认分区规则,以及指定分区后的具体分区流程,区内数据的确定。源码跟踪手撕分区原创 2023-07-24 10:30:00 · 676 阅读 · 0 评论