
分布式计算
longlovefilm
这个作者很懒,什么都没留下…
展开
-
spark源码系列1--------spark作业提交源码流程分析
java SparkSubmit -xxx -xxx -xxx提交语句会在client上开启一个提交的进程此处只是spark在yarn cluster模式下主要的提交流程框架,主要过程如下:1、通过启动SparkSubmit进程,内部反射运行Client类的main方法;2、client主要是根yarn集群的rm进行交互,主要是向rm传送启动am进程的启动命令以及参数,在yarn的nm节...原创 2019-12-14 20:41:48 · 206 阅读 · 0 评论 -
spark+kafka+idea+sbt+scala踩坑
集群的spark还没有用起来,自建一个单机spark,然后连接本机的kafka生产者消费消息。idea+spark scala代码package eximport org.apache.spark.SparkConfimport org.apache.spark.streaming.Secondsimport org.apache.spark.streaming.Stre...原创 2018-11-08 22:01:22 · 815 阅读 · 0 评论 -
spark+elasticsearch
环境:elasticsearch 1.7java 1.8scala 2.11.8sbt 1.2.6spark 2.3.2代码package eximport org.apache.spark.sql.SparkSessionimport org.elasticsearch.spark.rdd.EsSparkimport org.elasticsearch.spar...原创 2018-11-12 20:00:07 · 737 阅读 · 0 评论 -
如何为Kafka集群选择合适的Topic/Partitions数量
这是许多kafka使用者经常会问到的一个问题。本文的目的是介绍与本问题相关的一些重要决策因素,并提供一些简单的计算公式。越多的分区可以提供更高的吞吐量首先我们需要明白以下事实:在kafka中,单个patition是kafka并行操作的最小单元。在producer和broker端,向每一个分区写入数据是可以完全并行化的,此时,可以通过加大硬件资源的利用率来提升系统的吞吐量,例如对数据进行压缩...转载 2018-12-14 19:05:23 · 1352 阅读 · 0 评论 -
kafka确保数据不丢失
一、关于acks、retries、replication.factor、min.insync.replicasProducer在发布消息到某个Partition时,先通过ZooKeeper找到该Partition的Leader,然后无论该Topic的Replication Factor为多少(也即该Partition有多少个Replica),Producer只将该消息发送到该Partiti...原创 2019-03-08 10:33:52 · 7202 阅读 · 1 评论