故障原因:
1.硬件:磁盘(年4%),主板,
2.软件:bug,内存访问越界,进程crash,宕机
任务调度的故障恢复:
appmaster:快照保存instance的分配完成情况;
appworker:给另一个
fuximaster:
软状态:资源请求等:要求下面重发
硬状态:作业配置,持续化存储
规模挑战:
1.多线程异步:
异地进程通讯:RPC(远程过程调用协议)
在app master中单独给fuximaster(资源请求)分配线程池,防止与众多appworker得不到cpu
2.增量资源调度
fuximaster无法一次性给appmaster全部资源,防止来回申请的通信
本文探讨了导致任务调度故障的常见原因,包括硬件故障(如磁盘、主板问题)和软件故障(如bug、内存访问越界)。针对这些问题,介绍了appmaster如何通过快照保存instance分配状态来实现故障恢复,以及appworker如何与fuximaster协作处理资源请求等软状态和硬状态。同时,还讨论了多线程异步通讯中采用RPC进行异地进程通讯的方案,以及增量资源调度的方法。
631

被折叠的 条评论
为什么被折叠?



