巨鲸任务调度平台常见问题解决方案
big-whale Spark、Flink等离线任务的调度以及实时任务的监控 项目地址: https://gitcode.com/gh_mirrors/bi/big-whale
1. 项目基础介绍和主要编程语言
巨鲸任务调度平台(Big Whale)是一个为美柚大数据研发的分布式计算任务调度系统。它提供了对Spark、Flink等批处理任务的DAG调度和流处理任务的运行管理和状态监控。该平台具有Yarn应用管理、重复应用检测、大内存应用检测等功能,基于Spring Boot 2.0开发,支持简单快捷的部署。
主要编程语言为Java,同时使用了SSH、HTML、CSS、JavaScript等技术。
2. 新手常见问题及解决步骤
问题一:如何部署巨鲸任务调度平台?
解决步骤:
- 准备Java 1.8+和MySQL 5.1.0+环境。
- 下载项目或使用
git clone
克隆项目到本地。 - 创建数据库
big-whale
并运行提供的数据库脚本big-whale.sql
。 - 根据Spring Boot环境配置相关数据库账号密码以及SMTP信息。
- 修改
big-whale.properties
配置文件,设置SSH用户名、密码、钉钉告警开关等。 - 执行打包命令
mvn clean package
。 - 检查端口17070是否被占用,如被占用,关闭占用的进程或修改项目端口号配置后重新打包。
- 拷贝
target
目录下的big-whale.jar
,执行命令java -jar big-whale.jar
启动项目。
问题二:如何进行初始配置?
解决步骤:
- 打开浏览器,访问
http://localhost:17070
。 - 使用默认账号
admin
和密码admin
登录。 - 点击“权限管理”->“用户管理”,修改当前账号的邮箱为合法且存在的邮箱地址,以确保邮件发送成功。
- 添加集群:在“集群管理”->“集群管理”->“新增”中,设置Yarn ResourceManager的WEB UI地址和程序包存储目录。
- 添加集群用户:在“集群管理”->“集群用户”->“新增”中配置平台用户可以使用的Yarn资源队列和代理用户。
- 添加代理:在“集群管理”->“代理管理”->“新增”中添加代理服务器信息。
问题三:如何创建和调度任务?
解决步骤:
- 在“离线调度”中,通过拖拽左侧工具栏的批处理任务图标,添加相应的DAG节点。
- 针对非“Shell”类型的批处理任务,上传对应的程序包(如Spark批处理任务的jar包)。
- 在代码编辑器中,可以使用“可视化视图”或“代码视图”进行编辑。
- 点击“测试”,检查当前节点是否正确配置并能正常运行。
- 将节点按照一定的顺序连接起来,构建完整的DAG。
- DAG构建完成后,点击“保存”,完成调度设置。
- 在“调度实例”中,可以查看调度实例列表、运行状态和节点启动日志。
- 通过“手动执行”,可以触发调度执行。
通过上述步骤,新手用户可以更好地理解并使用巨鲸任务调度平台,有效解决在部署和使用过程中可能遇到的问题。
big-whale Spark、Flink等离线任务的调度以及实时任务的监控 项目地址: https://gitcode.com/gh_mirrors/bi/big-whale
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考