〔从零搭建〕机器学习算法平台部署指南

原创已于 2025-07-24 10:23:07 修改 · 847 阅读

20 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #算法 #人工智能 #大数据

于 2025-07-09 10:02:10 首次发布

【从零搭建】系列文章专栏收录该内容

21 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

🔥🔥 AllData大数据产品是可定义数据中台，以数据平台为底座，以数据中台为桥梁，以机器学习平台为中层框架，以大模型应用为上游产品，提供全链路数字化解决方案。
✨杭州奥零数据科技官网：http://www.aolingdata.com
✨AllData开源项目：https://github.com/alldatacenter/alldata
✨Gitee组织：https://gitee.com/alldatacenter

摘要：机器学习算法平台基于开源项目Cube-Studio建设。它提供丰富算法库和可视化工具，支持分布式计算，具备拖拉拽任务流编排、超参搜索、模型一键开发推理微调等能力。内容主要为以下五部分:

一、在线演示环境
二、功能简介
三、源码编译部署安装
四、访问机器学习算法平台页面
五、常见问题与解决方案

💡Tips:关注「公众号」大数据商业驱动引擎

在这里插入图片描述

🔹AllData数据中台线上正式环境：http://43.138.156.44:5173/ui_moat/
请联系市场总监获取账号密码
在这里插入图片描述

在这里插入图片描述
2.1 机器学习算法平台基于开源项目Cube-Studio建设

机器学习算法平台集成了数据处理、模型训练、自动调参、模型部署等功能。
它提供丰富算法库和可视化工具，支持分布式计算，具备拖拉拽任务流编排、超参搜索、模型一键开发推理微调等能力，助力用户高效完成机器学习项目，加速AI应用开发与落地。

🔹Cube-Studio开源项目：https://github.com/tencentmusic/cube-studio
🔹Cube-Studio文档：https://github.com/tencentmusic/cube-studio/wiki

2.2 机器学习算法平台功能特点

一站式开发
可视化开发
多框架支持
超参搜索
模型管理与监控
多租户管理
多种算力支持
大模型支持
数据管理
灵活部署

在这里插入图片描述
（引用官网cube-studio图片）

在这里插入图片描述

💡部署步骤：

3.1 环境准备
🔹服务器配置：建议控制端机器CPU≥16核，内存≥32GB，磁盘空间不低于500GB；任务端机器可根据实际需求配置。若需GPU加速，需配置NVIDIA GPU，并安装对应驱动和CUDA工具包。

🔹操作系统：
支持Ubuntu 20.04+或CentOS 7+。

🔹基础环境依赖：
Docker版本≥19.03。Kubernetes版本1.18+，推荐使用kubeadm或RKE部署。kubectl版本≥1.18。存储方面，单机环境可挂载本地磁盘，集群环境建议使用Ceph或NFS，并配置StorageClass。网络方面，确保Kubernetes集群网络与外部网络互通，配置Ingress Controller（如Nginx）以支持外部访问。

3.2 获取源码

🔹版本选择：
建议使用与AllData商业版兼容的Cube-Studio版本。

3.3 编译构建

🔹安装必要工具：
在一台全新的服务器上，需要先安装docker和k8s。由于rancher能管理k8s集群，可直接安装rancher。例如，安装docker的步骤包括设置docker存储库、添加官方秘钥、设置稳定存储库，然后安装指定版本的docker。

🔹构建过程：
根据源码提供的构建文档，使用相应的构建工具（如Maven等）进行编译构建。

3.4 部署及运行配置

🔹安装rancher：

使用命令sudo docker run -d --privileged --restart=unless-stopped -p
443:443 rancher/rancher:v2.5.2进行安装。
安装完成后，使用公网ip + 443端口打开rancher页面，设置密码，去掉allow collection of anonymous statistics，勾选上I agree to the Terms and Conditions for using Rancher。

🔹配置K8S集群

进入rancher后，addcluster，后面可以在右下角选择把语言切换成中文。选择自定义，修改yaml文件，在kube_api部分用指定内容替换，并新增kubelet部分，注意空格对齐。
主机选项把以上三个角色都勾选，并复制命令到服务器中执行，点击完成。

🔹安装cube-studio：

下载Cube-Studio后，点击进入集群，打开kubeconfig文件，点击左下方的复制到剪贴板，在服务器中切换到/cube-studio/install/kubernetes目录下，新增一个config文件，将复制的内容添加到config文件中，并执行命令sudo
sh start.sh [内网ip]（这里的ip记得改成实际的内网ip）。
运行结束后，打开外网ip，如http://[外网ip]，还需要移动一下命名空间，能打开即为成功。若不成功，可以在rancher中查看是哪个组件安装失败，有时候是因为网络问题拉取镜像失败，可以重新拉取一次，或者需要手动拉取，或提bug给开源项目。

3.5 可选配置

🔹镜像管理：
使用私有镜像仓库（如Harbor）存储Cube-Studio及相关依赖镜像，避免镜像拉取失败。

🔹资源隔离：
配置Kubernetes Namespaces和Resource Quotas，实现租户间资源隔离。

🔹版本兼容：
确保Cube-Studio版本与Kubernetes、Docker版本兼容，避免API不兼容问题。

3.6 监控与运维

🔹健康检查：
配置livenessProbe和readinessProbe，避免僵尸Pod占用资源。监控关键指标：

kube_pod_container_status_restarts_total、etcd_server_has_leader。

🔹日志管理
使用EFK（Elasticsearch+Fluentd+Kibana）集中存储日志，保留周期≥30天。
关键错误（如OOMKilled）需配置告警规则。

🔹备份恢复
定期备份etcd数据（建议每小时增量备份，每天全量备份）。
恢复测试需在隔离环境验证，避免生产环境数据污染。

在这里插入图片描述