一、项目介绍
Dr.Elephant 由 LinkedIn 于 2016 年 4 月份开源,是一个 Hadoop 和 Spark 的性能监控和调优工具。Dr.Elephant 能自动化收集所有计算任务指标,进行数据分析,并以简单易用的方式进行呈现。Dr.Elephant 的目标是提高开发人员的开发效率和增加集群任务调试的高效性。
二、架构
Dr.Elephant的架构如下图:
三、模块原理
1.数据采集
Job Generator: 任务采集
<property>
<name>drelephant.analysis.thread.count</name>
<value>3</value>
<description>Number of threads to analyze the completed jobs 采集线程数</description>
</property>
<property>
<name>drelephant.analysis.fetch.interval</name>
<value>60000</value>