GPUStack v0.6超重磅更新:vLLM多机分布式、昇腾MindIE、模型兼容性检测、模型故障自动恢复,上百项增强打造最好用的模型推理平台

GPUStack 是一个100%开源的模型服务平台,支持 Linux、Windows 和 macOS,支持 NVIDIA、AMD、Apple Silicon、昇腾、海光、摩尔线程等 GPU 构建异构 GPU 集群,支持 LLM、多模态、Embedding、Reranker、图像生成、Speech-to-Text 和 Text-to-Speech 模型,支持 vLLM、MindIE、llama-box基于 llama.cpp 与 stable-diffusion.cpp)等多种推理引擎与推理引擎多版本并行,支持资源自动调度分配、模型故障自动恢复、多机分布式推理、混合异构推理、推理请求负载均衡、资源与模型监控指标观测、国产化支持、用户管理与 API 认证授权等各种企业级特性,提供 OpenAI 兼容 API 无缝接入 Dify、RAGFlow、FastGPT、MaxKB 等各种上层应用框架,是企业建设模型服务平台的理想选择。

GPUStack 一直致力于以最简单易用的方式,帮助用户快速纳管异构 GPU 资源并运行所需的 AI 模型,从而支撑 RAG、AI Agents 以及其他生成式 AI 落地场景。为用户打造绝佳的使用体验是我们始终坚持的目标。最新发布的 v0.6 是迄今为止最重磅的版本,全方位完善了平台的整体功能、性能、稳定性和用户使用体验。

GPUStack v0.6 版本的核心更新包括

  • vLLM 多机分布式推理:提供生产级的多机分布式推理能力,支撑 DeepSeek R1 / V3 等单机 GPU 资源无法运行的超大参数量模型。
  • 昇腾 MindIE 支持:为昇腾 910B 和 310P 用户提供内置的 MindIE 推理引擎支持,以提供最佳的模型推理表现。
  • 模型兼容性检测:提供对模型是否支持部署的兼容性检测,目前提供对模型架构支持、操作系统兼容、资源可用性、本地路径可用性等依赖的实时检测,后续还会持续加入更多检测条件,提供更加友好的模型部署体验。
  • 模型下载管理:支持管理已下载的模型文件、支持以不占用 GPU 资源分配为前提,发起单机/多机的模型下载任务、支持将本地路径的模型文件添加到 UI 中进行统一管理。
  • 模型故障自动恢复:支持模型在发生故障时的自动恢复机制。
  • 端口暴露优化:优化需要暴露的
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值