GPUStack v0.6超重磅更新：vLLM多机分布式、昇腾MindIE、模型兼容性检测、模型故障自动恢复，上百项增强打造最好用的模型推理平台

最新推荐文章于 2025-10-16 09:43:54 发布

原创

最新推荐文章于 2025-10-16 09:43:54 发布 · 2.2k 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#AIGC #人工智能 #语言模型 #开源 #transformer

GPUStack 是一个100%开源的模型服务平台，支持 Linux、Windows 和 macOS，支持 NVIDIA、AMD、Apple Silicon、昇腾、海光、摩尔线程等 GPU 构建异构 GPU 集群，支持 LLM、多模态、Embedding、Reranker、图像生成、Speech-to-Text 和 Text-to-Speech 模型，支持 vLLM、MindIE、llama-box（基于 llama.cpp 与 stable-diffusion.cpp）等多种推理引擎与推理引擎多版本并行，支持资源自动调度分配、模型故障自动恢复、多机分布式推理、混合异构推理、推理请求负载均衡、资源与模型监控指标观测、国产化支持、用户管理与 API 认证授权等各种企业级特性，提供 OpenAI 兼容 API 无缝接入 Dify、RAGFlow、FastGPT、MaxKB 等各种上层应用框架，是企业建设模型服务平台的理想选择。

GPUStack 一直致力于以最简单易用的方式，帮助用户快速纳管异构 GPU 资源并运行所需的 AI 模型，从而支撑 RAG、AI Agents 以及其他生成式 AI 落地场景。为用户打造绝佳的使用体验是我们始终坚持的目标。最新发布的 v0.6 是迄今为止最重磅的版本，全方位完善了平台的整体功能、性能、稳定性和用户使用体验。

GPUStack v0.6 版本的核心更新包括：

vLLM 多机分布式推理：提供生产级的多机分布式推理能力，支撑 DeepSeek R1 / V3 等单机 GPU 资源无法运行的超大参数量模型。
昇腾 MindIE 支持：为昇腾 910B 和 310P 用户提供内置的 MindIE 推理引擎支持，以提供最佳的模型推理表现。
模型兼容性检测：提供对模型是否支持部署的兼容性检测，目前提供对模型架构支持、操作系统兼容、资源可用性、本地路径可用性等依赖的实时检测，后续还会持续加入更多检测条件，提供更加友好的模型部署体验。
模型下载管理：支持管理已下载的模型文件、支持以不占用 GPU 资源分配为前提，发起单机/多机的模型下载任务、支持将本地路径的模型文件添加到 UI 中进行统一管理。
模型故障自动恢复：支持模型在发生故障时的自动恢复机制。
端口暴露优化：优化需要暴露的

最低0.47元/天解锁文章