
cube-studio
文章平均质量分 86
开源地址:https://github.com/tencentmusic/cube-studio
国内最火的开源一站式机器学习平台,全链路串联机器学习,深度学习,大模型等工作场景
腾讯AI架构师
主要涉及领域 docker kubernetes 云原生技术,AI平台,大数据架构,python,分布式微服务,自动化运维
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
壁仞 k8s 兼容
本文提供了壁仞计算卡在Kubernetes环境中的部署和使用指南。主要包括:1) 壁仞技术安装资料获取;2) 主机驱动和运行时组件安装;3) K8s相关组件部署(device plugin、agent、exporter等);4) 通过kubectl命令查询节点可用卡数;5) 示例Pod YAML配置及查看Pod占用壁仞卡的方法。该文档为技术人员提供了完整的壁仞计算卡在K8s集群中的集成方案和使用说明。原创 2025-07-10 18:25:57 · 105 阅读 · 0 评论 -
昇腾 k8s vnpu配置
本文介绍了如何在NPU910B3卡上设置静态虚拟NPU(vNPU)。主要内容包括:1)设置虚拟化模式(容器或虚拟机模式);2)使用npu-smi命令创建、查看和销毁vNPU;3)修改k8s device插件参数以支持vNPU;4)验证节点vNPU资源;5)使用PyTorch镜像测试vNPU可用性。文档指出MindX DL支持动态虚拟化自动创建vNPU,也支持通过Docker参数直接挂载vNPU到容器。注意每个pod只能使用一张vNPU卡。原创 2025-07-10 13:15:33 · 259 阅读 · 0 评论 -
cube studio 修改logo 水印,标题,图标等信息。
修改后需重新打包前端镜像。原创 2024-08-02 17:17:49 · 1024 阅读 · 0 评论 -
cube studio 标注平台label studio,aihub自动化标注能力,大模型自动化标注
cube studio 腾讯开源的国内最热门的一站式机器学习mlops/大模型训练平台,支持多租户,sso单点登录,支持在线镜像调试,在线ide开发,数据集管理,图文音标注和自动化标注,任务模板自定义,拖拉拽任务流,模型分布式多机多卡训练,超参搜索,模型管理,推理服务弹性伸缩,支持ml/tf/pytorch/onnx/tensorrt/llm模型0代码服务发布,以及配套资源监控和算力,存储资源管理。支持机器学习,深度学习,大模型 开发训练推理发布全链路。原创 2024-06-25 22:40:16 · 2354 阅读 · 1 评论 -
sql查询,多数据库引擎,统一olap查询网关入口,支持mysql postgresql clickhouse presto hive impala
cube studio是tme开源的云原生机器学习平台,目前包含特征平台,支持在/离线特征;数据源管理,支持结构数据和媒体标注数据管理;在线开发,在线的vscode/jupyter代码开发;在线镜像调试,支持免dockerfile,增量构建;任务流编排,在线拖拉拽;开放的模板框架,支持tf/pytorch/spark/ray/horovod/kaldi等分布式训练任务;task的单节点debug,分布式任务的批量优先级调度,聚合日志;任务运行资源监控,报警;原创 2024-06-24 22:07:17 · 1242 阅读 · 0 评论 -
cube studio开源一站式机器学习平台:k3s部署cube-studio
开源地址:https://github.com/tencentmusic/cube-studiocube studio 腾讯开源的国内最热门的一站式机器学习mlops/大模型训练平台,支持多租户,sso单点登录,支持在线镜像调试,在线ide开发,数据集管理,图文音标注和自动化标注,任务模板自定义,拖拉拽任务流,模型分布式多机多卡训练,超参搜索,模型管理,推理服务弹性伸缩,支持ml/tf/pytorch/onnx/tensorrt/llm模型0代码服务发布,以及配套资源监控和算力,存储资源管理。原创 2024-06-24 17:02:20 · 2862 阅读 · 1 评论 -
cube studio开源一站式机器学习平台:kubesphere部署cube-studio平台
开源地址:https://github.com/tencentmusic/cube-studiocube studio 腾讯开源的国内最热门的一站式机器学习mlops/大模型训练平台,支持多租户,sso单点登录,支持在线镜像调试,在线ide开发,数据集管理,图文音标注和自动化标注,任务模板自定义,拖拉拽任务流,模型分布式多机多卡训练,超参搜索,模型管理,推理服务弹性伸缩,支持ml/tf/pytorch/onnx/tensorrt/llm模型0代码服务发布,以及配套资源监控和算力,存储资源管理。原创 2024-06-24 16:58:25 · 2351 阅读 · 0 评论 -
cube-studio开源一站式机器学习平台,在线ide,jupyter,vscode,matlab,rstudio,ssh远程连接,tensorboard
开源地址:https://github.com/tencentmusic/cube-studiocube studio 腾讯开源的国内最热门的一站式机器学习mlops/大模型训练平台,支持多租户,sso单点登录,支持在线镜像调试,在线ide开发,数据集管理,图文音标注和自动化标注,任务模板自定义,拖拉拽任务流,模型分布式多机多卡训练,超参搜索,模型管理,推理服务弹性伸缩,支持ml/tf/pytorch/onnx/tensorrt/llm模型0代码服务发布,以及配套资源监控和算力,存储资源管理。原创 2024-06-24 16:53:45 · 2828 阅读 · 0 评论 -
cube studio 开源一站式云原生机器学习平台链接汇总
https://github.com/data-infra/cube-studiocube studio云原生机器学习平台-架构(一)cube studio云原生机器学习平台-架构(二)cube studio云原生机器学习平台-架构(三)cube studio云原生机器学习平台-架构(四)cube studio云原生机器学习平台-架构(五)cube studio一站式云原生机器学习平台-加速模型工程化落地cube studio一站式云原生机器学习平台-加速分布式任务的运行效率cube studi原创 2022-03-20 19:30:56 · 4640 阅读 · 2 评论 -
cube studio开源一站式云原生机器学习平台-加速模型工程化落地
开源地址:https://github.com/tencentmusic/cube-studiomlops平台:cube studio一站式机器学习mlops/llmops平台,支持多租户,sso单点登录,支持在线镜像调试,在线ide开发,数据集管理,图文音标注和自动化标注,任务模板自定义,拖拉拽任务流,模型分布式多机多卡训练,超参搜索,模型管理,推理服务弹性伸缩,支持ml/tf/pytorch/onnx/tensorrt/llm模型0代码服务发布,以及配套资源监控和算力,存储资源管理。支持机器学习,深原创 2022-04-14 21:54:24 · 2361 阅读 · 0 评论 -
cube studio开源一站式云原生机器学习平台-架构(一)
介绍传统机器学习方法过程TME机器学习平台基于kubeflow做开源改造和产品化,先来看看技术层面kubeflow对机器学习的各个技术环节的附能先简单介绍一下各组件的功能。下面以大项目背景为例简介的,可以在下面的部署中了解更细致的组件内容。jupyter:jupyter 创建和管理多用户交互式Jupyter notebooks。istio:提供微服务的管理,服务网格,网关,里面包含更多的内容knative:serverless的框架,谷歌开源kfserving:模型的在线部署,支持版本控制及原创 2022-04-14 22:19:17 · 6921 阅读 · 0 评论 -
cube studio开源一站式云原生机器学习平台-架构(四)
前言:cube是开源的云原生机器学习平台,目前包含特征平台,支持在/离线特征;数据源管理,支持结构数据和媒体标注数据管理;在线开发,在线的vscode/jupyter代码开发;在线镜像调试,支持免dockerfile,增量构建;任务流编排,在线拖拉拽;开放的模板框架,支持tf/pytorch/spark/ray/horovod/kaldi等分布式训练任务;task的单节点debug,分布式任务的批量优先级调度,聚合日志;任务运行资源监控,报警;定时调度,支持补录,忽略,重试,依赖,并发限制,定时任务算力的智原创 2022-04-15 15:19:11 · 2700 阅读 · 0 评论 -
cube studio开源一站式云原生机器学习平台--volcano 多机分布式计算
volcano主要为我们提供index job, 也就是启动多个pod,并为每个pod提供index,role,以及其他role的访问地址。保留单机的代码,添加识别集群信息的代码(多少个worker,当前worker是第几个),添加分工(只处理归属于当前worker的任务),使用volcano这个模板,填上自己的worker数量,每个worker的镜像和启动命令就可以了。3、每个worker里面都判别一遍总共需要处理的数据,和当前worker需要处理的数据。1、单机器算力有限,核数不足。原创 2022-07-27 18:51:11 · 2249 阅读 · 0 评论 -
cube studio开源一站式云原生机器学习平台--ray 多机分布式计算
开源地址:https://github.com/data-infra/cube-studiocube studio 开源的国内最热门的一站式机器学习mlops/大模型训练平台,支持多租户,sso单点登录,支持在线镜像调试,在线ide开发,数据集管理,图文音标注和自动化标注,任务模板自定义,拖拉拽任务流,模型分布式多机多卡训练,超参搜索,模型管理,推理服务弹性伸缩,支持ml/tf/pytorch/onnx/tensorrt/llm模型0代码服务发布,以及配套资源监控和算力,存储资源管理。原创 2022-05-30 23:28:50 · 1599 阅读 · 1 评论 -
cube studio开源一站式云原生机器学习平台--pytorch分布式训练
在单机单卡,或者单机多卡无法在有限时间内完成训练的情况下,我们就需要使用多机多卡分布式训练,在多机多卡分布式训练主要存在几个难点:1、分布式多机多卡集群2、pytorch多机多卡分布式训练代码3、多机多卡分布式训练gpu利用率问题分布式训练集群...原创 2022-05-19 20:22:29 · 2505 阅读 · 0 评论 -
cube studio开源一站式云原生机器学习平台-架构(二)
前言:cube是开源的云原生机器学习平台,目前包含特征平台,支持在/离线特征;数据源管理,支持结构数据和媒体标注数据管理;在线开发,在线的vscode/jupyter代码开发;在线镜像调试,支持免dockerfile,增量构建;任务流编排,在线拖拉拽;开放的模板框架,支持tf/pytorch/spark/ray/horovod/kaldi等分布式训练任务;task的单节点debug,分布式任务的批量优先级调度,聚合日志;任务运行资源监控,报警;定时调度,支持补录,忽略,重试,依赖,并发限制,定时任务算力的智原创 2022-04-14 22:36:44 · 4361 阅读 · 0 评论 -
cube studio开源一站式云原生机器学习平台-架构(三)
前言:cube是开源的云原生机器学习平台,目前包含特征平台,支持在/离线特征;数据源管理,支持结构数据和媒体标注数据管理;在线开发,在线的vscode/jupyter代码开发;在线镜像调试,支持免dockerfile,增量构建;任务流编排,在线拖拉拽;开放的模板框架,支持tf/pytorch/spark/ray/horovod/kaldi等分布式训练任务;task的单节点debug,分布式任务的批量优先级调度,聚合日志;任务运行资源监控,报警;定时调度,支持补录,忽略,重试,依赖,并发限制,定时任务算力的智原创 2022-04-15 14:21:54 · 4510 阅读 · 0 评论 -
cube studio开源一站式云原生机器学习平台-加速分布式任务的运行效率
cube是tme开源的云原生机器学习平台,目前包含特征平台,支持在/离线特征;数据源管理,支持结构数据和媒体标注数据管理;在线开发,在线的vscode/jupyter代码开发;在线镜像调试,支持免dockerfile,增量构建;任务流编排,在线拖拉拽;开放的模板框架,支持tf/pytorch/spark/ray/horovod/kaldi等分布式训练任务;task的单节点debug,分布式任务的批量优先级调度,聚合日志;任务运行资源监控,报警;原创 2022-04-15 22:23:38 · 3664 阅读 · 5 评论 -
cube studio 开源一站式云原生机器学习平台-架构(五)
开源地址:https://github.com/tencentmusic/cube-studiomlops平台:cube studio一站式机器学习mlops/llmops平台,支持多租户,sso单点登录,支持在线镜像调试,在线ide开发,数据集管理,图文音标注和自动化标注,任务模板自定义,拖拉拽任务流,模型分布式多机多卡训练,超参搜索,模型管理,推理服务弹性伸缩,支持ml/tf/pytorch/onnx/tensorrt/llm模型0代码服务发布,以及配套资源监控和算力,存储资源管理。支持机器学习,深原创 2022-04-15 20:04:35 · 1945 阅读 · 0 评论 -
cube studio开源一站式云原生机器学习平台-推理服务的工程化加速
开源地址:https://github.com/tencentmusic/cube-studiomlops平台:cube studio一站式机器学习mlops/llmops平台,支持多租户,sso单点登录,支持在线镜像调试,在线ide开发,数据集管理,图文音标注和自动化标注,任务模板自定义,拖拉拽任务流,模型分布式多机多卡训练,超参搜索,模型管理,推理服务弹性伸缩,支持ml/tf/pytorch/onnx/tensorrt/llm模型0代码服务发布,以及配套资源监控和算力,存储资源管理。支持机器学习,深原创 2022-04-15 22:33:52 · 5047 阅读 · 1 评论