自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

GPUStack的博客

原创 GPUStack v2：推理加速释放算力潜能，开源重塑大模型推理下半场

在大模型推理的下半场，GPUStack v2 不再是简单的模型服务平台，而是高性能推理生态的协调者与赋能者。

2025-11-25 17:10:21 494

原创 0.9B PaddleOCR-VL 登顶 SOTA！GPUStack 高效推理部署实战指南

一键跑通 PaddleOCR-VL，极速体验行业顶尖的文档解析实力。

2025-10-20 17:38:52 536 1

原创昇腾多机推理极速上手：10倍简化的 DeepSeek R1 超大规模模型部署

昇腾多机推理太复杂？易出错？试试 GPUStack

2025-09-27 09:47:49 905

原创忘掉Ollama! 将GPT OSS私有部署推理性能提升100倍的部署教程

基于开源大模型服务平台 GPUStack 与自定义安装的 vLLM 版本完成 GPT OSS 系列模型的生产部署推理。并对比 Ollama 与 vLLM 在生产并发场景下的吞吐性能差异。

2025-08-08 18:00:47 1497

原创 GPUStack v0.7现已正式发布！macOS与Windows一键安装包、昇腾MindIE多机推理、模型使用计量与寒武纪MLU支持

摘要： GPUStack是一个开源模型服务平台，支持Linux、Windows和macOS，兼容NVIDIA、AMD、昇腾等多种GPU/NPU，构建异构集群运行LLM、多模态等模型。最新v0.7版本强化了推理性能与部署体验，新增昇腾MindIE多机分布式推理、寒武纪MLU适配、模型计量计费等功能，并推出桌面端一键安装包简化本地开发。平台提供OpenAI兼容API，集成vLLM等推理引擎，支持资源调度、故障恢复等企业级特性，助力高效构建大模型服务体系。

2025-07-28 11:38:52 1782 1

原创 45分钟从零搭建私有MaaS平台和生产级的Qwen3模型服务

在 45 分钟内搭建 GPUStack 模型服务平台并运行生产级的 Qwen3 模型服务。

2025-04-29 16:54:31 994

原创 GPUStack v0.6超重磅更新：vLLM多机分布式、昇腾MindIE、模型兼容性检测、模型故障自动恢复，上百项增强打造最好用的模型推理平台

打造业界最好用的模型推理平台。

2025-04-28 10:05:26 2280

原创 GPUStack v0.5：模型Catalog、图生图功能上线，多维优化全面提升产品能力与使用体验

模型管理、调度优化、扩展集成，全方位提升GPUStack的产品功能、使用体验与集成能力。

2025-01-24 12:01:05 2500 1

原创 GPUStack v0.4：文生图模型、语音模型、推理引擎版本管理、离线支持和部署本地模型

千呼万唤，GPUStack 迄今最受用户关注、超多新功能的版本重磅发布！

2024-12-09 09:39:52 1975

原创配置NVIDIA Container Runtime和容器运行GPUStack教程

配置 NVIDIA 容器运行时环境并使用容器方式运行 GPUStack 的操作教程

2024-11-19 10:46:41 2059

原创 RAG三件套运行的新选择 - GPUStack

安装 GPUStack 和 Dify，并使用 Dify 来对接 GPUStack 部署的对话模型、Embedding 模型和 Reranker 模型。

2024-11-12 09:53:30 1366

原创制作并量化GGUF模型上传到HuggingFace和ModelScope

使用 llama.cpp 制作并量化 GGUF 模型，并将模型上传到 HuggingFace 和 ModelScope 模型仓库

2024-11-07 09:25:49 1317

原创在昇腾Ascend 910B上运行Qwen2.5推理

使用 GPUStack 在昇腾 Ascend 910B 上运行 Qwen2.5 全系列的推理性能表现

2024-11-04 09:53:04 2012

原创 GPUStack 0.2：开箱即用的分布式推理、CPU推理和调度策略

单机多卡分布式推理、跨主机分布式推理、CPU 推理、各种调度策略，你想要的全都有

2024-09-19 09:44:18 1812 1

原创 GPUStack正式发布: 为大模型而生的开源GPU集群管理器

GPUStack 正式发布并开源，一个用于运行 LLM（大型语言模型）的开源 GPU 集群管理器。

2024-07-26 15:05:26 3904

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除