jps作业

最新推荐文章于 2025-12-22 13:59:14 发布

原创最新推荐文章于 2025-12-22 13:59:14 发布 · 302 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#python

通过jps命令，可以看到如下进程名，请解释一下它们各自是哪个命令产生的，有什么作用？ Worker、NodeManager、DataNode、Master、NameNode、JobHistoryServer、HistoryServer

答：

1、Worker
功能: Worker 是一种泛指概念，在某些上下文中可视为包含 DataNode 和 NodeManager 功能的角色集合体
来源: 如果提到具体名称，则更多时候代表的是底层物理设备角色而非特定程序实体
2、NodeManager
功能: NodeManager 是 YARN 下属的一个子模块，专注于单个节点上的容器生命周期管理和服务监控。每个 Slave 节点都有自己的 NodeManager 实例
来源: 类似 DataNode，NodeManager 受益于 start-yarn.sh 执行后被触发上线
3、 DataNode
功能: DataNode 是实际存储数据块的工作节点，分布在集群的多个 Slave 节点上。它按照 NameNode 的指示存储和检索数据，并定期向 NameNode 报告所持有的数据块状态
来源: DataNode 在 Slave 节点上运行，同样由 start-dfs.sh 或 start-all.sh 启动脚本初始化。当 DataNode 和 NameNode 的 Cluster ID 不匹配时可能导致无法启动的情况
4、 Master 进程
来源：master是 Spark 集群的核心组件之一，负责管理整个集群的资源分配和调度工作。它通过监听 Worker 节点的状态并协调任务分发来实现分布式计算
功能：

注册来自各个 Worker 节点的心跳信号
维护可用资源池的信息
接收客户端提交的任务请求并将这些任务合理地分配给合适的 Worker 节点处理
提供基于 Web 的监控界面以便于管理员实时跟踪集群状态
5、NameNode
功能: NameNode 是 Hadoop 集群的核心组件之一，负责管理分布式文件系统的命名空间和元数据。它记录了所有的文件、目录结构以及它们所在的 DataNodes 的位置信息
来源: NameNode 运行在主节点 (Master) 上，通常通过 start-dfs.sh 或者 start-all.sh 启动脚本启动。其配置主要依赖于 hdfs-site.xml 文件中的参数设置
6、JobHistoryServer
功能: JobHistoryServer 提供历史作业查询接口，允许管理员回顾已完成任务的日志详情及其执行轨迹
来源: 此服务器需手动开启，默认未随常规启动流程一并启用；可通过调整环境变量 $HADOOP_MAPRED_HOME/sbin/mr-jobhistory-daemon.sh start historyserver 设置来实现持久化支持
7、History Server (历史服务器)