〔从零搭建〕机器学习算法平台部署指南

🔥🔥 AllData大数据产品是可定义数据中台,以数据平台为底座,以数据中台为桥梁,以机器学习平台为中层框架,以大模型应用为上游产品,提供全链路数字化解决方案。
✨杭州奥零数据科技官网:http://www.aolingdata.com
✨AllData开源项目:https://github.com/alldatacenter/alldata
✨Gitee组织:https://gitee.com/alldatacenter

摘要:机器学习算法平台基于开源项目Cube-Studio建设。它提供丰富算法库和可视化工具,支持分布式计算,具备拖拉拽任务流编排、超参搜索、模型一键开发推理微调等能力。内容主要为以下五部分:

一、在线演示环境
二、功能简介
三、源码编译部署安装
四、访问机器学习算法平台页面
五、常见问题与解决方案

💡Tips:关注「公众号」大数据商业驱动引擎

在这里插入图片描述

🔹AllData数据中台线上正式环境:http://43.138.156.44:5173/ui_moat/
请联系市场总监获取账号密码
在这里插入图片描述

在这里插入图片描述
2.1 机器学习算法平台基于开源项目Cube-Studio建设

机器学习算法平台集成了数据处理、模型训练、自动调参、模型部署等功能。
它提供丰富算法库和可视化工具,支持分布式计算,具备拖拉拽任务流编排、超参搜索、模型一键开发推理微调等能力,助力用户高效完成机器学习项目,加速AI应用开发与落地。

🔹Cube-Studio开源项目:https://github.com/tencentmusic/cube-studio
🔹Cube-Studio文档:https://github.com/tencentmusic/cube-studio/wiki

2.2 机器学习算法平台功能特点

  • 一站式开发
  • 可视化开发
  • 多框架支持
  • 超参搜索
  • 模型管理与监控
  • 多租户管理
  • 多种算力支持
  • 大模型支持
  • 数据管理
  • 灵活部署

在这里插入图片描述
(引用官网cube-studio图片)

在这里插入图片描述

💡部署步骤:

3.1 环境准备
🔹服务器配置:建议控制端机器CPU≥16核,内存≥32GB,磁盘空间不低于500GB;任务端机器可根据实际需求配置。若需GPU加速,需配置NVIDIA GPU,并安装对应驱动和CUDA工具包。

🔹操作系统:
支持Ubuntu 20.04+或CentOS 7+。

🔹基础环境依赖:
Docker版本≥19.03。Kubernetes版本1.18+,推荐使用kubeadm或RKE部署。kubectl版本≥1.18。存储方面,单机环境可挂载本地磁盘,集群环境建议使用Ceph或NFS,并配置StorageClass。网络方面,确保Kubernetes集群网络与外部网络互通,配置Ingress Controller(如Nginx)以支持外部访问。

3.2 获取源码

🔹版本选择:
建议使用与AllData商业版兼容的Cube-Studio版本。

3.3 编译构建

🔹安装必要工具:
在一台全新的服务器上,需要先安装docker和k8s。由于rancher能管理k8s集群,可直接安装rancher。例如,安装docker的步骤包括设置docker存储库、添加官方秘钥、设置稳定存储库,然后安装指定版本的docker。

🔹构建过程:
根据源码提供的构建文档,使用相应的构建工具(如Maven等)进行编译构建。

3.4 部署及运行配置

🔹安装rancher:

  • 使用命令sudo docker run -d --privileged --restart=unless-stopped -p
    443:443 rancher/rancher:v2.5.2进行安装。
  • 安装完成后,使用公网ip + 443端口打开rancher页面,设置密码,去掉allow collection of anonymous statistics,勾选上I agree to the Terms and Conditions for using Rancher。

🔹配置K8S集群

  • 进入rancher后,addcluster,后面可以在右下角选择把语言切换成中文。选择自定义,修改yaml文件,在kube_api部分用指定内容替换,并新增kubelet部分,注意空格对齐。
  • 主机选项把以上三个角色都勾选,并复制命令到服务器中执行,点击完成。

🔹安装cube-studio:

  • 下载Cube-Studio后,点击进入集群,打开kubeconfig文件,点击左下方的复制到剪贴板,在服务器中切换到/cube-studio/install/kubernetes目录下,新增一个config文件,将复制的内容添加到config文件中,并执行命令sudo
    sh start.sh [内网ip](这里的ip记得改成实际的内网ip)。

  • 运行结束后,打开外网ip,如http://[外网ip],还需要移动一下命名空间,能打开即为成功。若不成功,可以在rancher中查看是哪个组件安装失败,有时候是因为网络问题拉取镜像失败,可以重新拉取一次,或者需要手动拉取,或提bug给开源项目。

3.5 可选配置

🔹镜像管理:
使用私有镜像仓库(如Harbor)存储Cube-Studio及相关依赖镜像,避免镜像拉取失败。

🔹资源隔离:
配置Kubernetes Namespaces和Resource Quotas,实现租户间资源隔离。

🔹版本兼容:
确保Cube-Studio版本与Kubernetes、Docker版本兼容,避免API不兼容问题。

3.6 监控与运维

🔹健康检查:
配置livenessProbe和readinessProbe,避免僵尸Pod占用资源。监控关键指标:

kube_pod_container_status_restarts_total、etcd_server_has_leader。

🔹日志管理
使用EFK(Elasticsearch+Fluentd+Kibana)集中存储日志,保留周期≥30天。
关键错误(如OOMKilled)需配置告警规则。

🔹备份恢复
定期备份etcd数据(建议每小时增量备份,每天全量备份)。
恢复测试需在隔离环境验证,避免生产环境数据污染。

在这里插入图片描述

4.1 功能概览-机器学习中心
在这里插入图片描述

4.2 机器学习算法平台-新建流水线
在这里插入图片描述

4.3 决策树训练部署
在这里插入图片描述

4.4 项目空间-项目分组
在这里插入图片描述

4.5 添加项目分组
在这里插入图片描述

4.6 项目分组详情
在这里插入图片描述

4.7 修改项目分组
在这里插入图片描述

4.8 项目空间-模版分类
在这里插入图片描述

4.9 添加模版分组
在这里插入图片描述

4.10 模版分组详情
在这里插入图片描述

4.11 修改模版分组
在这里插入图片描述

4.12 项目空间-安全设置
在这里插入图片描述

4.13 添加用户
在这里插入图片描述

4.14 用户详情
在这里插入图片描述

4.15 修改用户
在这里插入图片描述

4.16 项目空间-日志列表
在这里插入图片描述

4.17 数据资产-数据探索-sqllab
在这里插入图片描述

4.18 任务详情
在这里插入图片描述

4.19 数据资产-元数据-库表
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4.20 数据资产-元数据-指标
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4.21 数据资产-元数据-维表
在这里插入图片描述
在这里插入图片描述

4.22 数据资产-媒体数据-数据集
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4.23 导出数据
在这里插入图片描述

4.24 在线开发-镜像仓库
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4.25 在线开发-镜像构建
在这里插入图片描述

4.26 在线开发-镜像管理
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4.27 在线开发-代码开发-notebook
在这里插入图片描述
在这里插入图片描述

4.28 在线开发-数据开发-任务ETL
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4.29 在线开发-数据开发-任务管理
在这里插入图片描述

4.30 模型训练-任务模版
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4.31 模型训练-任务流
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4.32 模型训练-任务流-定时调度
在这里插入图片描述

4.33 模型训练-任务流-运行实例
在这里插入图片描述

4.34 模型训练-Automl-超参搜索
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4.35 服务化-整体资源
在这里插入图片描述

4.36 服务化-内部服务
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4.37 服务化-模型服务-模型管理
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4.38 服务化-模型服务-推理服务
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
5.1 Pod启动失败:

  • 检查kubectl describe pod中的Events,常见原因包括镜像拉取失败、资源不足、权限问题。
  • 使用kubectl logs --previous查看前一个容器的日志。

5.2 服务不可用:

  • 检查Ingress的Backend状态,如为UNHEALTHY需调整健康检查参数。
  • 使用telnet测试端口连通性,确认防火墙规则。

5.3 性能瓶颈:

  • 使用kubectl top监控节点资源使用率,CPU超过80%需扩容。
  • 检查存储IOPS,如低于1000需优化存储配置。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AllData公司负责人

AllData数据中台知识星球

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值