1.Overview
vLLM是一个大模型推理服务框架,声称
- 最牛的serving 吞吐量
- PagedAttention对kv cache的有效管理
- 传入请求的continus batching,而不是static batching
- 高性能CUDA kernel
- 流行的HuggingFace模型无缝集成
- 有各种decoder算法的高吞吐量服务,包括parallel sampling和beam search等
- tensor parallel
- 兼容OpenAI的API服务器
支持的模型确实挺多的:
- Aquila (BAAI/Aquila-7B, BAAI/AquilaChat-7B, etc.)
- Baichuan (baichuan-inc/Baichuan-7B, baichuan-inc/Baichuan-13B-Chat,
etc.) - BLOOM (bigscience/bloom, bigscience/bloomz, etc.)
- Falcon (tiiuae/falcon-7b, tiiuae/falcon-40b, tiiuae/falcon-rw-7b,
etc.) - GPT-2 (gpt2, gpt2-xl, etc.)
- GPT BigCode (bigcode/starcoder, bigcode/gpt_bigcode-santacoder, et
订阅专栏 解锁全文
2023

被折叠的 条评论
为什么被折叠?



