🔥🔥 AllData大数据产品是可定义数据中台,以数据平台为底座,以数据中台为桥梁,以机器学习平台为中层框架,以大模型应用为上游产品,提供全链路数字化解决方案。
✨杭州奥零数据科技官网:http://www.aolingdata.com
✨AllData开源项目:https://github.com/alldatacenter/alldata
✨Gitee组织:https://gitee.com/alldatacenter
摘要:机器学习算法平台基于开源项目Cube-Studio建设。它提供丰富算法库和可视化工具,支持分布式计算,具备拖拉拽任务流编排、超参搜索、模型一键开发推理微调等能力。内容主要为以下五部分:
一、在线演示环境
二、功能简介
三、源码编译部署安装
四、访问机器学习算法平台页面
五、常见问题与解决方案
💡Tips:关注「公众号」大数据商业驱动引擎
🔹AllData数据中台线上正式环境:http://43.138.156.44:5173/ui_moat/
请联系市场总监获取账号密码
2.1 机器学习算法平台基于开源项目Cube-Studio建设
机器学习算法平台集成了数据处理、模型训练、自动调参、模型部署等功能。
它提供丰富算法库和可视化工具,支持分布式计算,具备拖拉拽任务流编排、超参搜索、模型一键开发推理微调等能力,助力用户高效完成机器学习项目,加速AI应用开发与落地。
🔹Cube-Studio开源项目:https://github.com/tencentmusic/cube-studio
🔹Cube-Studio文档:https://github.com/tencentmusic/cube-studio/wiki
2.2 机器学习算法平台功能特点
- 一站式开发
- 可视化开发
- 多框架支持
- 超参搜索
- 模型管理与监控
- 多租户管理
- 多种算力支持
- 大模型支持
- 数据管理
- 灵活部署
(引用官网cube-studio图片)
💡部署步骤:
3.1 环境准备
🔹服务器配置:建议控制端机器CPU≥16核,内存≥32GB,磁盘空间不低于500GB;任务端机器可根据实际需求配置。若需GPU加速,需配置NVIDIA GPU,并安装对应驱动和CUDA工具包。
🔹操作系统:
支持Ubuntu 20.04+或CentOS 7+。
🔹基础环境依赖:
Docker版本≥19.03。Kubernetes版本1.18+,推荐使用kubeadm或RKE部署。kubectl版本≥1.18。存储方面,单机环境可挂载本地磁盘,集群环境建议使用Ceph或NFS,并配置StorageClass。网络方面,确保Kubernetes集群网络与外部网络互通,配置Ingress Controller(如Nginx)以支持外部访问。
3.2 获取源码
🔹版本选择:
建议使用与AllData商业版兼容的Cube-Studio版本。
3.3 编译构建
🔹安装必要工具:
在一台全新的服务器上,需要先安装docker和k8s。由于rancher能管理k8s集群,可直接安装rancher。例如,安装docker的步骤包括设置docker存储库、添加官方秘钥、设置稳定存储库,然后安装指定版本的docker。
🔹构建过程:
根据源码提供的构建文档,使用相应的构建工具(如Maven等)进行编译构建。
3.4 部署及运行配置
🔹安装rancher:
- 使用命令sudo docker run -d --privileged --restart=unless-stopped -p
443:443 rancher/rancher:v2.5.2进行安装。 - 安装完成后,使用公网ip + 443端口打开rancher页面,设置密码,去掉allow collection of anonymous statistics,勾选上I agree to the Terms and Conditions for using Rancher。
🔹配置K8S集群
- 进入rancher后,addcluster,后面可以在右下角选择把语言切换成中文。选择自定义,修改yaml文件,在kube_api部分用指定内容替换,并新增kubelet部分,注意空格对齐。
- 主机选项把以上三个角色都勾选,并复制命令到服务器中执行,点击完成。
🔹安装cube-studio:
-
下载Cube-Studio后,点击进入集群,打开kubeconfig文件,点击左下方的复制到剪贴板,在服务器中切换到/cube-studio/install/kubernetes目录下,新增一个config文件,将复制的内容添加到config文件中,并执行命令sudo
sh start.sh [内网ip](这里的ip记得改成实际的内网ip)。 -
运行结束后,打开外网ip,如http://[外网ip],还需要移动一下命名空间,能打开即为成功。若不成功,可以在rancher中查看是哪个组件安装失败,有时候是因为网络问题拉取镜像失败,可以重新拉取一次,或者需要手动拉取,或提bug给开源项目。
3.5 可选配置
🔹镜像管理:
使用私有镜像仓库(如Harbor)存储Cube-Studio及相关依赖镜像,避免镜像拉取失败。
🔹资源隔离:
配置Kubernetes Namespaces和Resource Quotas,实现租户间资源隔离。
🔹版本兼容:
确保Cube-Studio版本与Kubernetes、Docker版本兼容,避免API不兼容问题。
3.6 监控与运维
🔹健康检查:
配置livenessProbe和readinessProbe,避免僵尸Pod占用资源。监控关键指标:
kube_pod_container_status_restarts_total、etcd_server_has_leader。
🔹日志管理
使用EFK(Elasticsearch+Fluentd+Kibana)集中存储日志,保留周期≥30天。
关键错误(如OOMKilled)需配置告警规则。
🔹备份恢复
定期备份etcd数据(建议每小时增量备份,每天全量备份)。
恢复测试需在隔离环境验证,避免生产环境数据污染。
4.1 功能概览-机器学习中心
4.2 机器学习算法平台-新建流水线
4.3 决策树训练部署
4.4 项目空间-项目分组
4.5 添加项目分组
4.6 项目分组详情
4.7 修改项目分组
4.8 项目空间-模版分类
4.9 添加模版分组
4.10 模版分组详情
4.11 修改模版分组
4.12 项目空间-安全设置
4.13 添加用户
4.14 用户详情
4.15 修改用户
4.16 项目空间-日志列表
4.17 数据资产-数据探索-sqllab
4.18 任务详情
4.19 数据资产-元数据-库表
4.20 数据资产-元数据-指标
4.21 数据资产-元数据-维表
4.22 数据资产-媒体数据-数据集
4.23 导出数据
4.24 在线开发-镜像仓库
4.25 在线开发-镜像构建
4.26 在线开发-镜像管理
4.27 在线开发-代码开发-notebook
4.28 在线开发-数据开发-任务ETL
4.29 在线开发-数据开发-任务管理
4.30 模型训练-任务模版
4.31 模型训练-任务流
4.32 模型训练-任务流-定时调度
4.33 模型训练-任务流-运行实例
4.34 模型训练-Automl-超参搜索
4.35 服务化-整体资源
4.36 服务化-内部服务
4.37 服务化-模型服务-模型管理
4.38 服务化-模型服务-推理服务
5.1 Pod启动失败:
- 检查kubectl describe pod中的Events,常见原因包括镜像拉取失败、资源不足、权限问题。
- 使用kubectl logs --previous查看前一个容器的日志。
5.2 服务不可用:
- 检查Ingress的Backend状态,如为UNHEALTHY需调整健康检查参数。
- 使用telnet测试端口连通性,确认防火墙规则。
5.3 性能瓶颈:
- 使用kubectl top监控节点资源使用率,CPU超过80%需扩容。
- 检查存储IOPS,如低于1000需优化存储配置。