近日,九州未来正式发布AI Studio智算平台2.7.0。
借助AI Studio智算平台2.7.0,可以轻松应对算力稀缺、机器学习成本高,AI开发流程复杂、工作效率低下,大模型AI开发运维门槛高、预训模型适配落地难度大等一系列挑战。
本次九州未来发布的AI Studio智算平台,提供模型市场、数据集管理、在线敏捷开发、即时构建、任务流编排、GPU管理、多集群调度等功能;兼容TensorFlow、PyTorch等主流深度学习框架,提供高性能推理加速服务;支持对AI应用进行一键式开发/推理/微调,为深度学习技术的研发和应用提供可靠性高、稳定性强的私有托管服务。
AI Studio智算平台提供异构计算集群的资源统一管理、可视化AI建模、AI训练作业全生命周期管理、集群物理资源全面监控与告警,支持AI开发作业的全流程工作负载,为客户提供统一、高效、标准的AI开发流程支持和可扩展的人工智能基础设施管理能力。

为什么需要AI Studio智算平台?
AI Studio智算平台2.7.0集合九大产品优势,带来一站式、高性能的AI应用开发新体验。
1、易用性
AI Studio为用户提供可视化训练和推理功能,通过拖拉拽的方式组建端到端的 AI训练和推理pipeline,降低机器学习项目的入门门槛,非专业用户也能轻松使用。
AI Studio内置多个数据预处理、特征工程、深度学习、机器学习、模型评估和可视化等AI任务模板。当内置的AI任务模板不能满足业务需求时,用户还可以按照说明自定义任务模板。用户可以对这些任务模板通过拖拉拽方式组建从训练到推理的端到端流水。仅需对各个任务模块的参数进行设置,无需编写代码就可以方便完成AI端到端全流程作业。
2、灵活性和扩展性
采用模块化设计思想,各个功能模块相互独立,降低代码耦合度,提高可维护性和团队协作开发效率。用户可根据项目需求自定义开发模板和插件,AI Studio的架构支持灵活扩展和定制。
3、便捷性
在线的vscode/jupyter代码开发,允许用户直接在云端进行代码的开发和调试,无需在本地配置复杂的开发环境。
4、全环节落地
AI Studio平台定位于满足产业AI落地全环节需求,因此平台中包含从数据接入、数据处理、算法构建、模型训练、模型评估、模型管理、模型部署的全过程功能,消除AI模型从实验室训练到产业环境落地的全环节问题,真正帮助用户在实际业务场景中使用AI能力。
5、账户管理安全
采用 RBAC(基于角色的访问控制)+ABAC(基于属性的访问控制)的权限管理,使账号管理更加安全。RBAC方式使权限管理非常简单便捷,ABAC作为补充,满足精细化的访问控制需求。同时增加独立的运维管理账号,在不影响使用的前提下,避免过多的权限分配。
6、一站式服务
提供从数据管理、模型训练到模型部署的全流程机器学习服务,简化机器学习项目的复杂性。
7、GPU/NPU切分隔离和虚拟化
- 支持基于算力和内存限制的GPU切分,GPU算力切分不依赖vGPU Licence和硬件能力(比如NVIDIA MIG),支持MIG和非MIG场景
- 除NVIDIA之外,支持其它主流国产GPU/NPU算力芯片,厂家包括但不限于:华为、天数
- 支持异构GPU隔离和虚拟化
- 对Mistral-7B模型推理,在单台NVIDIA H800*8硬件下,能够满足1000并发平均120ms 响应的性能指标
8、运维垂类大模型应用:K8S-AIOps
- 支持各算力节点上的事件自动报告
- 支持基于大模型(而非规则)的针对算力节点故障问题的智能分析
- 支持集群健康状态巡检,主动型(而非基于规则的被动型)异常检测
- 监控指标智能分析,给出资源分配建议
9、差异化算法模型构建
AI Studio平台提供差异化算法模型构建工具,面向零基础业务人员、初级算法工程师等不同使用人群,提供可视化拖拽式建模工具、交互式代码开发环境等不同使用门槛的建模工具。
可视化拖拽式建模工具采用拖拽式任务流设计,各元素可以自由地通过可视化拖拽,“搭积木”般地绘制任务流,大数据、小模型在其中融合、灵动,让初级算法工程师能轻松快速地上手构建算法,生产模型,也能让高级算法工程师构建调试复杂算法任务流,以白盒形式供业务人员及初级算法工程师理解学习算法流程。同时工作流内置多种机器学习算法,通过拖拽就能灵活使用,各类丰富的算法包含特征工程、机器学习、深度学习、图算法等,充分支持用户在不同场景和数据情况下的需求。
AI Studio智算平台解决什么问题?
面对政企用户,AI Studio智算平台帮助政企用户快速实现业务创新。
- 提供自动化模型部署工具,降低人工部署的复杂性,通过平台化模型部署工具,免去人工配置环境、部署模型的工作量。
- 异构算力虚拟化,为用户节约成本。GPU、CPU异构算力虚拟化,GPU算力提供小至1/10卡的异构算力,既可满足部分简单模型的训练及推理需求,又可最大化降低训练及推理成本。
- 资源弹性伸缩,及时响应需求变化。可以选择手动或自动调整弹性实例扩展策略,根据业务负载情况,动态实时自动管理实例数量,帮助用户以最合适的实例数量应对业务情况,免去人工部署负担。
- 针对推理服务部署,提供多框架支持,可部署多种模型格式。提供triton-tnn-tensorflow-pytorch-onnx、Angel-pmml等标准运行环境以及自定义运行环境,支持Tensorflow、Pytorch格式模型,支持标准PMML和ONNX模型。
- 模型优化加速,高吞吐,低延时,提升服务性能。支持模型和框架的优化加速,通过CPU/GPU加速镜像提升模型服务运行效率,降低延时,提高吞吐量,提供极致推理性能。
- 平台功能多样化,支持模型版本管理,带有丰富的日志监控等功能。提供丰富的多模型支持、版本管理和日志监控等使用功能,拥有完整的模型管理和服务管理功能,上手快,使用简易。
面对算法/模型开发者,AI Studio智算平台支持算法/模型开发者分享自己的研究成果,实现智力变现。
- 为开发者提供“一站式”机器学习平台体验,从数据接入、数据处理、模型训练、评估、服务部署到在线推理,覆盖全工作流程,形成机器学习训练的完整闭环。
- 提供拖拽式可视化建模工具,各元素可以自由地通过可视化拖拽,“搭积木”般地绘制任务流,大数据、小模型在其中融合、灵动,让算法及模型开发者能轻松快速地上手。
- 平台内置机器学习算法,通过拖拽及代码库引用均能灵活使用,各类丰富的算法包含特征工程、机器学习、深度学习、图算法等,同时支持PyTorch、TensorFlow等多种框架, 满足不同开发者的使用需求与习惯。并充分支持用户在不同场景和数据情况下的需求。
- 提供Notebook开发环境和开发套件,开发者可以快速在平台内进行机器学习模型开发和调试。
- 平台镜像仓库支持模型的多种接入方式,并支持接入第三方模型托管。
面向未来,九州未来将持续优化创新,提供功能强大、极致体验的智算管理平台及服务,夯实人工智能算力底座,助力行业客户和伙伴们快速、轻松地构建、扩展和管理AI应用,开启智能化转型新篇章。