FastDeploy 2.0:大模型高效部署套件,文心4.5原生,释放最优推理性能!
随着文心4.5 系列等优秀大模型的陆续开源,相关学术研究与产业应用竞相涌现。为此,百度正式推出FastDeploy 2.0,依托飞桨框架,提供大模型高效部署及高性能推理全栈能力!目前,FastDeploy 2.0 已支持多个开源大模型的高效部署、支持高性能EP并行PD分离式部署方案,文心4.5模型输入/输出吞吐可高达56K/21K;并推出效果接近无损的2-bit 量化版本,单卡即可轻松部署千亿参数级模型!FastDeploy 2.0 能够帮助企业降低大模型部署门槛、获得最佳推理性能,提高资源调度效率,让更多研究者和企业能够高效部署落地大模型,以满足众多学术研究与产业应用需求。
FastDeploy 是基于飞桨框架研发的面向大语言模型、多模态大模型的推理部署套件,原生支持文心4.5 系列开源模型,具备以下特性:
简单易用:兼容OpenAI 协议,完全对齐vLLM 使用接口,支持本地和服务化推理,4行代码本地推理,1行命令启动服务。
性能领先:通过各类量化高性能算子、CUDA Graph、投机解码、上下文缓存、分段预填充、PD分离等高性能优化,在文心及主流开源大模型上性能领先。
量化方法丰富: 权重/激活/KV Cache 支持8-bit、4-bit、甚至极低的2-bit 量化压缩,单卡即可部署千亿级模型。
多硬件推理:支持英伟达系列GPU、昆仑芯P800、天数BI150、海光K100AI、燧原S60 等众多硬件上的高效推理。
工业级部署:针对工业部署场景,提供了实时负载感知、分布式负载均衡的流量调度方案。
安装成功后,本地离线使用方式如下:
from fastdeploy import LLM, SamplingParams
sampling_params = SamplingParams(top_p=0.95)
llm = LLM(model="ERNIE-4.5-0.3B")
outputs = llm.chat(messages=[{"role": "user", "content": "把李白的静夜思改写为现代诗"}], sampling_params)
也可以通过一行命令快速启动服务的方式进行推理:
python -m fastdeploy.entrypoints.openai.api_server --model baidu/ERNIE-4.5-0.3B-Paddle --max-model-len 32768
在服务启动后,即可用以下方式请求服务:
curl -X POST "http://0.0.0.0:8180/v1/chat/completions" \
-H "Content-Type: application/json" \
-d '{"messages": [{"role": "user", "content": "把李白的静夜思改写为现代诗"}]}'
Github链接:
https://github.com/Paddle

最低0.47元/天 解锁文章
1823

被折叠的 条评论
为什么被折叠?



