〔从零搭建〕实时开发平台部署指南

原创已于 2025-07-05 10:28:20 修改 · 995 阅读

18 ·

CC 4.0 BY-SA版权

文章标签：

#python #java #大数据 #数据库开发

于 2025-07-05 10:27:45 首次发布

【从零搭建】系列文章专栏收录该内容

21 篇文章

订阅专栏

🔥🔥 AllData大数据产品是可定义数据中台，以数据平台为底座，以数据中台为桥梁，以机器学习平台为中层框架，以大模型应用为上游产品，提供全链路数字化解决方案。
✨杭州奥零数据科技官网：http://www.aolingdata.com
✨AllData开源项目：https://github.com/alldatacenter/alldata
✨Gitee组织：https://gitee.com/alldatacenter

摘要：实时开发平台基于开源项目StreamPark建设。StreamPark 为流处理作业提供全生命周期支持，从开发到部署，集众多功能于一身，是一站式流处理平台。文章内容主要为以下五部分:

一、在线演示环境
二、功能简介
三、源码编译部署安装
四、访问实时开发平台页面
五、注意事项

💡Tips:关注「公众号」大数据商业驱动引擎

在这里插入图片描述
🔹AllData数据中台线上正式环境：http://43.138.156.44:5173/ui_moat/
请联系市场总监获取账号密码

在这里插入图片描述

2.1 实时开发平台基于开源项目StreamPark建设

实时开发平台 StreamPark 提供了一系列快捷 API 和 Connector，开箱即用，作业状态自动追踪，快速完成作业的开发和管理。同时支持 Flink & Spark，无缝支持流式处理和批处理，连接互通，创造无限可能。

StreamPark 是一个流处理应用程序开发管理框架，旨在轻松构建和管理流处理应用程序，提供使用Flink 和 Spark 编写流处理应用的开发框架和一站式实时计算平台，核心能力包括不限于应用开发、部署、管理、运维、实时数仓等。

StreamPark 为流处理作业提供全生命周期支持，从开发到部署，集众多功能于一身，是一站式流处理平台。

🔹StreamPark开源项目：https://github.com/apache/streampark
🔹StreamPark文档：https://streampark.apache.org/docs/get-started/quick-start

2.2 实时开发平台功能特点：

界面化作业开发
智能编码辅助
团队协作与版本控制
动态资源分配与多集群管理
实时监控与告警
自动化容错与故障恢复
数据接入与转换
任务血缘与日志分析
扩展型与集成能力
高可用性与稳定性

在这里插入图片描述
部署步骤：

3.1 环境准备

🔹操作系统要求：
支持Linux或macOS（推荐CentOS/Ubuntu），需确保系统具备足够的资源（CPU、内存、磁盘空间）。

🔹Java环境：
JDK 1.8或更高版本（StreamPark依赖Java运行时环境）。

🔹Node.js与Maven：
Node.js 12.x+（用于前端构建）、Maven 3.x+（用于后端编译）。

🔹数据库：
需配置MySQL或PostgreSQL（用于存储StreamPark的元数据，如作业配置、用户信息等）。

🔹集群环境：
若需部署到生产环境，需提前配置Flink/Spark集群（如YARN或Kubernetes）。

3.2 获取源码 --版本选择：建议使用与AllData商业版兼容的StreamPark版本。

在这里插入图片描述

3.3 编译构建 --前端构建：进入前端目录（如streampark-console），执行以下命令：

–后端编译：使用Maven编译后端代码，跳过测试以加速构建：
IDEA 编译StreamPark

生成产物：编译完成后，在streampark-distribution/target目录下生成部署包（如streampark-x.x.x-bin.tar.gz）。

在这里插入图片描述

3.4 部署及运行配置 --解压部署包：
在这里插入图片描述
–配置文件修改：
数据库配置：
编辑conf/application.properties，配置MySQL连接信息。

Flink/Spark集群配置：
在conf/flink-conf.yaml或conf/spark-defaults.conf中配置集群地址、资源队列等。
图片

–启动服务：
前端启动：通过Nginx或内置Web服务器部署前端静态资源。

后端启动：
在conf/flink-conf.yaml或conf/spark-defaults.conf中配置集群地址、资源队列等。
在这里插入图片描述
访问Web界面：
默认地址为http://:10000（端口可配置）。

3.5 可选配置

🔹告警设置：
在Web界面中配置邮件、钉钉等告警通道，用于作业异常通知。

🔹Flink版本管理：
在conf/flink-versions.yaml中添加自定义Flink版本路径，支持多版本切换。

🔹YARN队列配置：
若使用YARN，需在conf/yarn-site.xml中指定队列名称及资源限制。

🔹扩展Connector：
将自定义的Flink Connector（如Kafka、Doris等）放入plugins目录，重启服务生效。

🔹高可用部署：
在生产环境中，建议部署多个StreamPark实例，并通过Nginx负载均衡。

3.6 验证与调试

🔹作业提交：
通过Web界面提交一个简单的Flink SQL作业（如从Kafka读取数据并写入Doris），验证数据流是否畅通。

🔹日志查看：
检查logs/streampark.log及Flink/Spark的TaskManager日志，排查潜在问题。

在这里插入图片描述

4.1 Apache Flink-作业管理
Flink作业管理实现作业提交、调度、监控与动态资源分配，保障实时计算高效稳定。
在这里插入图片描述

4.2 添加
在这里插入图片描述

4.3 Flink版本
提供一站式Flink作业管理，支持多版本兼容，具备作业提交、调度、监控及故障自愈能力，保障实时计算高效稳定运行。
在这里插入图片描述

4.4 添加
在这里插入图片描述

4.5 编辑
在这里插入图片描述

4.6 查看
在这里插入图片描述

4.7 配置同步
支持多环境参数动态绑定，可一键下发Flink作业参数、依赖库及资源规格至集群，实现开发/测试/生产环境配置级联更新，避免人工疏漏导致作业异常。
在这里插入图片描述

4.8 集群管理
提供多集群统一纳管与资源动态调度，支持Flink作业跨集群分发、资源配额隔离、健康度监控及故障自愈，保障实时计算集群高可用与弹性伸缩。
在这里插入图片描述

4.9 添加
在这里插入图片描述

4.10 添加集群
在这里插入图片描述

4.11 Apache Spark-作业管理
支持Spark任务全周期管控，涵盖提交、调度、监控及故障自愈，保障任务稳定运行。
在这里插入图片描述

4.12 添加
在这里插入图片描述

4.13 编辑
在这里插入图片描述

4.14 Apache Spark-Spark 版本
支持多版本Spark管理，提供版本配置、依赖隔离与集群适配，保障Spark作业稳定运行与跨环境兼容性。
在这里插入图片描述

4.15 添加
在这里插入图片描述

4.16 资源中心-资源上传
支持多格式资源一键上传。
在这里插入图片描述

4.17 添加资源
在这里插入图片描述

4.18 资源中心-项目管理
支持资源分库分类、权限隔离与版本追溯，实现多项目资源独立管控，避免跨团队协作冲突与资源误用。
在这里插入图片描述

4.19 添加
在这里插入图片描述

4.20 资源中心-变量管理
支持全局/项目级变量配置、多环境动态替换与版本追踪，实现资源参数与代码解耦，保障跨环境部署一致性。
在这里插入图片描述

4.21 添加变量
在这里插入图片描述

4.22 设置中心-环境设置
支持多环境参数隔离、集群动态绑定与资源变量联动。
在这里插入图片描述

4.23 设置更新成功
在这里插入图片描述

4.24 设置中心-告警设置
多维度阈值配置、多渠道通知（邮件/短信）与告警策略自定义。
在这里插入图片描述

4.25 添加
在这里插入图片描述

4.26 设置中心-扩展-添加
在这里插入图片描述

4.27 创建队列
在这里插入图片描述

4.28 设置中心-Yarn队列
自支持按业务分域配置资源池，动态分配核数/内存配额，绑定优先级与用户组，保障实时作业资源强隔离。
在这里插入图片描述

4.29 系统管理-秘钥管理-添加
在这里插入图片描述

4.30 系统管理-用户管理
支持多角色权限分级、RBAC动态授权与操作审计，实现平台用户全生命周期管控，保障实时开发资源安全访问。
在这里插入图片描述

4.31 创建用户
在这里插入图片描述

4.32 用户信息
在这里插入图片描述

4.33 系统管理-角色管理
在这里插入图片描述

4.34 创建角色
在这里插入图片描述

4.35 角色信息
在这里插入图片描述

4.36 系统管理-团队管理
支持跨部门资源隔离、权限组批量分配与协作审计，实现实时开发团队与业务场景的动态映射，保障多项目资源安全协同。
在这里插入图片描述

4.37 创建团队
在这里插入图片描述

4.38 系统管理-成员管理
支持跨团队账号聚合、权限动态调整与操作行为溯源，实现企业级用户资源精细化管控，保障实时开发协作安全合规。
在这里插入图片描述

4.39 添加成员
在这里插入图片描述

在这里插入图片描述
🔹权限管理：
确保部署用户对/opt/streampark目录有读写权限。

🔹资源隔离：
在共享集群中，需为StreamPark作业分配独立的资源队列，避免资源争抢。