GPUStack 是一个专为运行 AI 模型设计的开源 GPU 集群管理器,致力于支持基于任何品牌的异构 GPU 构建统一管理的算力集群。无论这些 GPU 运行在 Apple Mac、Windows PC 还是 Linux 服务器上,GPUStack 都能将它们纳入统一的算力集群中。管理员可以轻松地从 Hugging Face 等流行的模型仓库中部署 AI 模型,开发人员则能够通过 OpenAI 兼容的 API 访问这些私有模型服务,就像使用 OpenAI 或 Microsoft Azure 提供的公共模型服务 API 一样便捷。
GPUStack 一直致力于以最简单易用的方式,帮助用户快速纳管异构 GPU 资源并运行所需的 AI 模型,从而支撑 RAG、AI Agents 以及其他生成式 AI 落地场景。为用户打造绝佳的使用体验是我们始终坚持的目标。在最新发布的 v0.5 版本以及接下来的版本中,我们将全方位强化和改善整体的用户体验。
GPUStack v0.5 版本的核心更新包括:
- 新增模型 Catalog:提供经过验证的模型集合,简化模型部署流程,大幅降低用户的认知负担,提升部署效率。
- 增强 Windows 和 macOS 模型支持:将 VLM 多模态模型支持和 Tool Calling 能力扩展到 Windows 和 macOS 平台,不再局限于 Linux 环境。
- 支持图生图功能:为 Image 模型新增图生图(图像编辑)功能,同时提供对应的 API 和 Playground UI,支持更丰富的应用场景。
- 模型管理优化:新增模型启动检查功能、支持模型的停止和启动操作,还有支持对无法自动识别的模型进行手动分类,便于分类和使用。
- 调度优化:优化自动调度优先级,将分布式推理的优先级调整至高于 CPU 推理。还增强了手动调度选卡功能,支持选择多卡,包括单机多卡(vLLM)和多机多卡(llama-box),资源分配更加自由。
- 扩展集成能力:增加了 AMD GPU 支持,为 Dify 的 GPUStack Provider 添加了 STT 和 TTS 语音模型支持。还提供了 RAGFlow 的 GPUStack Provider,修复了与 FastGPT 集成的问题。
这一版本包含 60 多项增强、修复、稳定性改进和用户体验优化,全面提升了 GPUStack 的易用性与功能,为用户提供更强大的应用场景支持。
有关 GPUStack 的详细信息,可以访问:
GitHub 仓库地址: https://github