
【=== Spark 基础 ===】
文章平均质量分 95
RDD,SparkSQL分析
阿龙先生啊
懂点大数据运维, 会写两三行代码,自学了一些 docker, kubernetes。博客主要分享大数据、Linux、云原生相关知识。 目前职位大数据工程师,长远打算做个会敲代码的厨子。
展开
-
【分布式计算框架】Spark RDD五大属性剖析 | Action 和 Transformations 算子
RDD 是只读的, 不允许任何形式的修改. 虽说不能因为 RDD 和 HDFS 是只读的, 就认为分布式存储系统必须设计为只读的. 但是设计为只读的, 会显著降低问题的复杂度, 因为 RDD 需要可以容错, 可以惰性求值, 可以移动计算, 所以很难支持修改.原创 2020-03-28 23:47:11 · 1536 阅读 · 4 评论 -
【分布式计算框架】Spark RDD 的 Shuffle 和分区
只有 型的 RDD 才会有 Shuffle 操作, 例如 , 但是有一个特例, 就是 算子可以对任何数据类型 Shuffle,早期版本 Spark 的 Shuffle 算法是 , 后来改为 , 更适合大吞吐量的场景在本地模式下,访问 http://localhost:4040 之所以会有 8 个 Tasks, 是因为在启动的时候指定的命令是 , 这样会生成 1 个 Executors, 这个 Executors 有 8 个 Cores, 所以默认会有 8 个 Tasks, 每个 Core原创 2022-07-05 19:53:39 · 1052 阅读 · 1 评论 -
【分布式计算框架】Spark 集群搭建与示例运行 | RDD算子入门
Apache Spark 是一个快速的, 多用途的集群计算系统, 相对于 Hadoop MapReduce 将中间结果保存在磁盘中, Spark 使用了内存保存中间结果, 能在数据尚未写入硬盘时在内存中进行运算Spark 只是一个计算框架, 不像 Hadoop 一样包含了分布式文件系统和完备的调度系统, 如果要使用 Spark, 需要搭载其它的文件系统和更成熟的调度系统............原创 2020-03-01 23:00:26 · 2399 阅读 · 1 评论