
Spark
KLordy
千里之行始于足下!
展开
-
Spark Streaming启动&DStreamGraph源码分析
在github上看到一个十分好的总结:https://github.com/lw-lin/CoolplaySpark, 对Spark Streaming整体的设计思想讲的算是个人见过十分好的了,看完之后有种原来如此,看完之后对整体的架构有了较为清晰的认识,不过由于篇幅问题,这个项目文档中是偏总结和思想的灌输,没有过于追究一些细节内容,本文以及后续将在此基础上进行源码的阅读,对细节进行更多的研究...原创 2018-11-15 19:20:21 · 328 阅读 · 0 评论 -
Spark Streaming任务调优实录记载
/bin/spark-submit --name jobname --driver-cores 2 --driver-memory 8g --num-executors 20 --executor-memory 18g --executor-cores 3 --conf spark.default.parallelism=120 --conf "spark.executor.extraJa...原创 2018-11-12 10:12:45 · 839 阅读 · 0 评论 -
Spark Streaming全天候实时top N实现
1. 背景介绍 公司的日志平台是通过spark streaming消费kafka上的数据,解析完毕后直接存入到hdfs,然后到了每天凌晨通过pig脚本来对前一天的hdfs上的全量数据进行统计分析,得出前一天的日志的各项指标。全量的数据量一天通过lzo压缩后有大概4T,解压完估计得有40~50T。然后每天计算的指标有十个,有若干个指标是需要计算top n这种,而且pig脚本代码质量较差,有一些j...原创 2019-01-17 16:36:59 · 3406 阅读 · 1 评论 -
Spark yarn-client和yarn-cluster的区别
之前面试遇到过一次这个问题,回答的很不好,这次专门记录下来,进行深入的解析两者区别。 首先,最简单也十分浅显的一种说法是:yarn-cluster是用于生产环境,这种模式下客户端client在提交了任务以后,任务就托管给yarn了,这个时候client就可以断开连接不需要再管后续事情了,这种情况下无法直接查看到application运行的日志,查看日志较为麻烦;而yarn-clien...原创 2019-04-08 11:09:16 · 2433 阅读 · 1 评论 -
聊一聊Spark资源动态分配
1. 提出问题 相信很多面试也会问道类似的问题,那么这篇文章就是要围绕这个问题来进行展开进行分析Spark的资源动态分配。 通常我们在通过spark-submit提交Spark应用到yarn集群的时候,都会配置num-executors来指定分配多少个Executor,但是对于经验不足的新手而言,经常会不知道如何分配合适的资源数,所以经常会选择尽量多分配资源,认为资源分配的越多任务运行的就...原创 2019-04-08 11:12:54 · 1659 阅读 · 1 评论