11月26日,浪潮数据正式发布AI云基础设施平台 InCloud AIOS。浪潮数据云计算产品副总经理张明灿系统分享了公司在AI领域的战略布局与产品理念,正式推出基于"分层解耦"设计理念的AIOS平台,帮助企业用户从传统私有云平滑演进到智能云时代。
作为国内领先的云计算和云存储厂商,浪潮数据在私有云领域已积累超过两万家用户,其虚拟化产品连续四年位居Gartner中国品牌第一,超融合产品出货量排名中国第二,并在金融、能源行业连续保持市场份额领先。这一庞大的客户基础使得浪潮数据深刻洞察到企业从以CPU为核心的私有云向以GPU为核心的智能云演进的需求趋势。
同时,浪潮数据作为中立的云基础设施厂商,坚持开放兼容的技术路线,广泛支持X86、C86、ARM等各类CPU架构,并与国内外主流GPU厂商保持深度合作。在智算操作系统领域的技术积累,为AIOS平台的研发奠定了坚实基础。
张明灿指出,当前企业AI建设正经历从"小规模试点"到"多模型、多场景深化"的演进过程。随着金融、医疗等垂直行业需求的持续深入,企业各部门对AI模型的需求日益差异化,从智能问答扩展到智能报销、代码编程、用户管理等多个场景。
"云是AI的最佳载体",张明灿强调。云平台能够弹性提供AI所需的大模型、GPU算力、存储等资源,同时便于AI应用与传统应用的融合共生,更重要的是,云的包容性能够更好地适配异构芯片、推理框架等多样化环境。

基于这一认知,浪潮数据将用户AI建设划分为三个阶段:入门型用户主要关注AI算力资源分配;进阶型用户需要建立稳定、高效的大模型服务;成熟型用户则需求统一的智能体开发平台。为满足不同阶段客户需求,AIOS平台采用分层解耦架构,包括基础设施层、模型生产层、智能体开发层和应用层四个层次。

这一设计使得用户可以根据自身需求灵活选择功能模块,从基础资源分配逐步演进到智能体开发平台,实现平滑过渡。目前,浪潮数据已联合二十多家合作伙伴成立智能体联盟,共同为客户提供从底层到应用的整体解决方案。
紧接着,浪潮数据云计算产品部AIOS产品负责人吕广杰全面展示了AIOS平台的核心技术能力。该平台通过"一云多算、高效运维、智能调度、快速构建、安全管控"五大技术突破,为企业AI落地提供全栈解决方案。
1、一云多算:实现异构算力统一管理,资源利用率提升500%
面对当前国产芯片厂商众多、生态封闭的现状,AIOS平台通过开放解耦架构,广泛适配国内外主流芯片,将异构算力纳入统一资源池进行智能调度。某省级政府用户通过该平台,成功盘活五千多万元存量GPU设备,支持19个大模型并行运行,承载两百多个智能体应用,资源利用率较传统模式提升500%。

- 2、高效运维:大幅降低AI技术门槛
针对AI技术栈复杂、学习成本高的问题,AIOS平台极大简化了操作流程。运维人员无需深入掌握GPU、云原生、推理引擎等底层技术,即可快速完成大模型与智能体应用的部署,显著降低了企业AI应用的技术门槛。
3、智能调度:三步完成模型部署,精准评估资源需求
平台创新性地实现了"三步模型部署":命名模型服务、选择模型、确认发布。系统会自动完成芯片选择、多机多卡调度、推理引擎匹配等复杂操作。以部署DeepSeek R1 685B大模型为例,平台可自动调度8台A100服务器共64张GPU卡完成部署。同时,平台内置性能评估工具,可根据服务人数智能测算资源需求,确保算力资源高效利用。
- 4、快速构建:分钟级创建智能体应用,开箱即用
基于"大脑+知识库"的设计理念,AIOS平台实现智能体应用的三步快速构建:创建知识库、上传文件、关联模型。目前平台已集成50多个智能体应用,覆盖财务审核、合同审查、医疗问诊等场景。其中,智能报销系统将传统1-2小时的流程缩短至3分钟;合同审核智能体可识别90%的常见问题,大幅提升业务效率。
5、安全管控:AI网关护航企业数据安全
针对大模型"幻觉"和敏感数据泄露风险,平台配备AI安全网关,实现输入拦截、输出审计的全流程管控。该能力特别适用于政府、金融、央国企等对数据安全要求严格的用户,确保AI服务在安全可控的环境中稳定运行
浪潮数据AIOS平台通过这五大技术突破,为企业提供了从算力管理、模型部署到应用落地的完整解决方案,有效解决了企业在AI建设中面临的资源利用率低、技术门槛高、安全风险大等核心痛点,助力各行各业实现智能化转型升级。
就平台技术特性、行业落地及未来规划,现场也进行了深入交流。
Q1:为何提出“AIOS”概念?对用户的必要性是什么?
A:操作系统(OS)在数据中心语境下,是承上启下的“智能中枢”。传统数据中心OS管理调度CPU服务器、网络等资源,支撑上层虚拟机等应用。AIOS将其管理范围外延至GPU服务器、高性能网络等AI算力,向上承载大模型与智能体应用。其核心定位未变——仍是数据中心的计算大脑,只是管理调度的对象扩展到了AI异构算力。因此,面向AI场景推出AIOS是必要且合理的。
Q2:平台在设计与理念上有哪些独特之处?
A:主要有以下几点:
可演进架构:强调“拥抱过去,面向未来”。既充分兼容利旧设备,考虑用户现有运维习惯,又为未来3-5年的新技术预留平滑演进能力,支持横向(扩设备类型)与纵向(扩应用层级)的持续扩展。
一云多芯/多算:不仅是兼容多种CPU,更深入扩展到多种异构AI芯片。平台具备自动为模型匹配最优推理框架和算力的能力,并在同类芯片间实现等价算力调度。我们是国内兼容GPU种类最多、调度最完善的平台之一。
分层解耦,开放共建:坚持开放路线,不绑定任何特定硬件或应用。用户可以自由选择底层硬件、中间平台及上层应用,避免被单一厂商锁定,这符合用户对架构灵活性的迫切需求。
Q3:平台自研的模型性能评估工具其具体价值如何体现?
A:该功能直接源于用户实践中的痛点。许多用户在初期投入时,难以准确评估自身算力需求与资源配置,可能导致资源闲置或不足。性能评估工具提供两大核心能力:一是评估当前模型在现有资源下的性能表现;二是根据业务增长(如用户数从30人增至100人)预测未来的资源需求,并给出配置建议。这有效帮助用户实现精准投入,避免资源浪费,显著降本增效。
Q4:从传统基础设施演进到AI基础设施,主要难点何在?浪潮云海在哪些方面做了重点突破?
A:浪潮的AI云与私有云同根同源,并非另起炉灶,这保障了用户现有投资的平滑演进。转型难点主要集中在三方面:
计算层面:适配不同厂商(尤其是国产)的GPU是一大挑战。各厂商生态相对封闭,支持的模型与推理框架有限。平台需对不同模型、硬件、框架进行大量适配工作。
存储层面:大模型应用对存储提出了新要求,如模型的快速加载。我们创新性地实现了文件、对象、块存储的有机整合,并构建了分层存储架构(从GPU HBM到内存、SSD、HDD),通过“以算代存”优化数据调度,提升推理性能。
网络层面:AI数据中心新增了AI互联网络,其对带宽和延迟要求极高。我们早在2020年左右就发布了全局RDMA网络架构,并利用其在AI时代加速节点间通信。业界难点在于从传统TCP网络向RDMA网络的改造,而浪潮在此领域具备先发优势。
Q5:AIOS平台模型仓库中包含了大量开源模型,这是出于何种考虑?未来如何支持开源与商业化模型的统一管理?
A:在用户构建AI能力的初期,开源通用模型(如DeepSeek、千问等)应用非常广泛。因此,平台内置了这些主流开源模型,方便直接调用。随着应用的深入,他们可以基于平台对模型进行微调,或引入商业化的私有模型。平台架构是开放的,能够支持用户将自行微调的行业模型或采购的商业模型发布到统一的模型仓库中,实现各类模型的自动化发布与构建。
从技术层面,平台通过开放兼容的设计理念,对不同架构的模型(如MOE模型)进行适配,并依托强大的调度能力,为不同模型匹配相应的推理框架与硬件资源。同时,平台也支持通过低代码/零代码方式快速适配新兴模型框架,无需修改底层代码即可实现敏捷集成。
Q6:平台如何实现“三步快速模型部署”?在促进AI落地方面做了哪些努力?
A:快速部署能力来源于大量的用户实践与经验沉淀:
资源预测与性能评估:根据用户业务规模(如用户数)和模型类型,平台能自动推荐最佳资源配置,并预测扩容需求。
模型与推理框架自动匹配:平台内置了丰富的适配经验,能自动为选定模型推荐最合适的推理框架,省去用户自行摸索的环节。
通过这些将最佳实践产品化的措施,我们极大简化了模型部署流程,使其达到业界领先的易用性与效率。
Q7:对于已有私有云的用户,向AI云升级的步骤是怎样的?
A:对于浪潮云海的老用户,升级过程非常平滑:将现有平台版本(如V6)升级至支持AI特性的新版本(如V8)。新版本已内置大模型服务、AI网关等功能。
用户只需将新的AI服务器节点接入现有资源池即可,无需推翻重建。原有云平台上的虚拟机、容器、数据库等服务均可继续为AI应用提供支持,用户无需重新搭建PaaS等底层平台。
Q8:AIOS平台未来的演进方向是什么?是否会全面升级为智能体平台?
A:平台确实会集成智能体开发能力,但我们清醒地认识到,智能体开发平台本身并非我们的核心竞争壁垒,其迭代速度极快。我们的核心战略定位始终聚焦于智能体平台之下的大模型服务与AI物理基础设施统一管控层。
面向未来,浪潮数据云计算产品副总经理张明灿表示,浪潮数据将持续聚焦AI物理基础设施层与模型统一服务层,深化智能体联盟生态建设。长期来看,公司将依托在私有云和边缘计算领域的优势,推动云边协同的统一AI基础设施落地,实现在中心侧部署高算力AIOS,在边缘侧部署轻量化AI超融合平台,完成模型的中心训练、边缘推理与在线分发,为企业AI建设提供更完善的解决方案。
364

被折叠的 条评论
为什么被折叠?



