
spark
文章平均质量分 86
bryceforphy
大家好,我毕业于ZJU,现在是从事于互联网行业的码农一枚,平时对大数据、分布式系统等方面感兴趣,希望能够在这里与大家彼此交流,共同提高。追求知识的道路上,进一步有一步的欢喜。微博@不睡觉的时候会困,谢谢。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark资源调度中的通信流程
spark的调度包括资源调度和任务调度两种。前面介绍过spark的任务调度包括DAGScheduler&TaskScheduler,本文主要介绍资源调度,包括资源调度中涉及的各模块以及它们之间的通信。 Spark中物理节点包括三者,分别是client、master&worker,而与资源调度相关的角色有四个,分别是driver、master、worker和executor。这几个节点与角原创 2016-04-22 18:21:08 · 2570 阅读 · 0 评论 -
Spark源码分析之Scheduler模块(TaskScheduler)
DAGScheduler将任务提交到TaskScheduler之后,接下来由TaskScheduler负责任务的调度。 TaskScheduler是一个trait(接口类),它的实现类是TaskSchedulerImpl。具体内容包括: 1、出现shuffle输出lost要报告fetch failed错误 2、碰到straggle任务需要放到别的节点上重试 3、为每个TaskSet原创 2016-04-23 11:57:07 · 1541 阅读 · 0 评论 -
一次spark写入hbase延时问题的排查
总结一下工作中遇到一次spark写入hbase的超时问题。 业务场景是将kafka等数据源采集上来的用户日志数据经spark汇聚到hbase,然后再读出来供排序、算法评分等业务使用。先前使用时并未出现超时问题,但最近突然就出现了写入超时,下图中是spark任务调度ui页面,可以看出多个写入任务的时延明显增长。 最一开始是怀疑hbase集群出现问题,于是查找各个regionser原创 2016-06-19 10:25:54 · 5832 阅读 · 0 评论