
spark性能調优
九指码农
生活不止眼前的苟且。
展开
-
spark streaming读取kafka 零丢失(四)
在移动互联网时代,处处都存在着实时处理或者流处理,目前比较常用的框架包括spark-streaming + kafka 等;由于spark-streaming读取kafka维护元数据的方式有1、通过checkpoint保存2、Direct DStream API 可以通过设置commit.offset.auto=true 设置自动提交3、自己手动维护,自己实现方法将消费到的DStream中的...原创 2019-09-29 19:44:09 · 428 阅读 · 5 评论 -
spark streaming读取kafka数据令丢失(二)
方式二: 方法二就是每次streaming 消费了kafka的数据后,将消费的kafka offsets更新到zookeeper。当你的程序挂掉或者升级的时候,就可以接着上次的读取,实现数据的令丢失和 at most once。而且使用checkpoint的方式可能会导致数据重复消费,spark streaming维护的offset和zookeeper维护的偏移量不同步导致数据丢失或者重复消费等。原创 2017-08-27 13:58:28 · 1394 阅读 · 0 评论 -
spark性能调优:开发调优
原则一:避免创建重复的RDD 通常来说,我们在开发一个Spark作业时,首先是基于某个数据源(比如Hive表或HDFS文件)创建一个初始的RDD;接着对这个RDD执行某个算子操作,然后得到下一个RDD;以此类推,循环往复,直到计算出最终我们需要的结果。在这个过程中,多个RDD会通过不同的算子操作(比如map、reduce等)串起来,这个“RDD串”,就是RDD lineage,也就是“RDD的转载 2016-05-17 17:09:19 · 792 阅读 · 0 评论