FastDeploy 2.0:大模型高效部署套件,文心4.5原生,释放最优推理性能!

FastDeploy 2.0:大模型高效部署套件,文心4.5原生,释放最优推理性能!

随着文心4.5 系列等优秀大模型的陆续开源,相关学术研究与产业应用竞相涌现。为此,百度正式推出FastDeploy 2.0,依托飞桨框架,提供大模型高效部署及高性能推理全栈能力!目前,FastDeploy 2.0 已支持多个开源大模型的高效部署、支持高性能EP并行PD分离式部署方案,文心4.5模型输入/输出吞吐可高达56K/21K;并推出效果接近无损的2-bit 量化版本,单卡即可轻松部署千亿参数级模型!FastDeploy 2.0 能够帮助企业降低大模型部署门槛、获得最佳推理性能,提高资源调度效率,让更多研究者和企业能够高效部署落地大模型,以满足众多学术研究与产业应用需求。

FastDeploy 是基于飞桨框架研发的面向大语言模型、多模态大模型的推理部署套件,原生支持文心4.5 系列开源模型,具备以下特性:

简单易用:兼容OpenAI 协议,完全对齐vLLM 使用接口,支持本地和服务化推理,4行代码本地推理,1行命令启动服务。
性能领先:通过各类量化高性能算子、CUDA Graph、投机解码、上下文缓存、分段预填充、PD分离等高性能优化,在文心及主流开源大模型上性能领先。
量化方法丰富: 权重/激活/KV Cache 支持8-bit、4-bit、甚至极低的2-bit 量化压缩,单卡即可部署千亿级模型。
多硬件推理:支持英伟达系列GPU、昆仑芯P800、天数BI150、海光K100AI、燧原S60 等众多硬件上的高效推理。
工业级部署:针对工业部署场景,提供了实时负载感知、分布式负载均衡的流量调度方案。
安装成功后,本地离线使用方式如下:

from fastdeploy import LLM, SamplingParams
sampling_params = SamplingParams(top_p=0.95)
llm = LLM(model="ERNIE-4.5-0.3B")
outputs = llm.chat(messages=[{"role": "user", "content": "把李白的静夜思改写为现代诗"}], sampling_params)

也可以通过一行命令快速启动服务的方式进行推理:

python -m fastdeploy.entrypoints.openai.api_server --model baidu/ERNIE-4.5-0.3B-Paddle --max-model-len 32768 

在服务启动后,即可用以下方式请求服务:

curl -X POST "http://0.0.0.0:8180/v1/chat/completions" \
-H "Content-Type: application/json" \
-d '{"messages": [{"role": "user", "content": "把李白的静夜思改写为现代诗"}]}'

Github链接:
https://github.com/Paddle

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值