FastDeploy 2.0：大模型高效部署套件，文心4.5原生，释放最优推理性能！

原创

已于 2025-08-19 11:11:18 修改 · 1.4k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#百度 #人工智能

于 2025-07-25 18:34:15 首次发布

FastDeploy 2.0：大模型高效部署套件，文心4.5原生，释放最优推理性能！

随着文心4.5 系列等优秀大模型的陆续开源，相关学术研究与产业应用竞相涌现。为此，百度正式推出FastDeploy 2.0，依托飞桨框架，提供大模型高效部署及高性能推理全栈能力！目前，FastDeploy 2.0 已支持多个开源大模型的高效部署、支持高性能EP并行PD分离式部署方案，文心4.5模型输入/输出吞吐可高达56K/21K；并推出效果接近无损的2-bit 量化版本，单卡即可轻松部署千亿参数级模型！FastDeploy 2.0 能够帮助企业降低大模型部署门槛、获得最佳推理性能，提高资源调度效率，让更多研究者和企业能够高效部署落地大模型，以满足众多学术研究与产业应用需求。

FastDeploy 是基于飞桨框架研发的面向大语言模型、多模态大模型的推理部署套件，原生支持文心4.5 系列开源模型，具备以下特性：

简单易用：兼容OpenAI 协议，完全对齐vLLM 使用接口，支持本地和服务化推理，4行代码本地推理，1行命令启动服务。
性能领先：通过各类量化高性能算子、CUDA Graph、投机解码、上下文缓存、分段预填充、PD分离等高性能优化，在文心及主流开源大模型上性能领先。
量化方法丰富: 权重/激活/KV Cache 支持8-bit、4-bit、甚至极低的2-bit 量化压缩，单卡即可部署千亿级模型。
多硬件推理：支持英伟达系列GPU、昆仑芯P800、天数BI150、海光K100AI、燧原S60 等众多硬件上的高效推理。
工业级部署：针对工业部署场景，提供了实时负载感知、分布式负载均衡的流量调度方案。
安装成功后，本地离线使用方式如下：

from fastdeploy import LLM, SamplingParams
sampling_params = SamplingParams(top_p=0.95)
llm = LLM(model="ERNIE-4.5-0.3B")
outputs = llm.chat(messages=[{"role": "user", "content": "把李白的静夜思改写为现代诗"}], sampling_params)

也可以通过一行命令快速启动服务的方式进行推理：

python -m fastdeploy.entrypoints.openai.api_server --model baidu/ERNIE-4.5-0.3B-Paddle --max-model-len 32768

在服务启动后，即可用以下方式请求服务：

curl -X POST "http://0.0.0.0:8180/v1/chat/completions" \
-H "Content-Type: application/json" \
-d '{"messages": [{"role": "user", "content": "把李白的静夜思改写为现代诗"}]}'

Github链接：
https://github.com/Paddle