
mahatma----spark
圣☞摧枯拉朽
大数据
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
spark shuffle详解
https://www.cnblogs.com/itboys/p/9201750.html原创 2020-11-05 20:15:38 · 121 阅读 · 0 评论 -
RDD、DataFrame、DataSet区别
https://www.cnblogs.com/Transkai/p/11360603.html原创 2020-04-16 21:26:30 · 130 阅读 · 0 评论 -
Spark Streaming 的 Receiver和 Direct模式
1 两种模式的原理和区别 Receiver模式 1. Receiver模式下的运行架构 1)InputDStream: 从流数据源接收的输入数据。 2)Receiver:负责接收数据流,并将数据写到本地。 3)Streaming Context:代表SparkStreaming,负责Streaming层面的任务调度,生成jobs发送到Spark engine处理。 4)Spark ...原创 2020-04-15 13:03:58 · 863 阅读 · 0 评论 -
spark的Accumulator累加器使用及 自定义Accumulator功能
一、spark的累加器Accumulator 使用Accumulator时,为了保证准确性,只使用一次action操作。如果多次action操作,会造成累加器值错误。 解决方案:将任务之间的血缘依赖关系切断就可以了。什么方法有这种功能呢?cache,persist,调用这个方法的时候会将之前的依赖切除,后续的累加器就不会再被之前的transfrom操作影响到了。 二、自定义Accum...原创 2020-04-15 11:08:40 · 514 阅读 · 0 评论