vllm 0.6.1 大模型推理加速服务安装部署和测试

wu_tech

已于 2024-12-12 11:50:56 修改

阅读量1.5k

点赞数 23

CC 4.0 BY-SA版权

文章标签： langchain ai llama

于 2024-10-27 22:43:36 首次发布

本文链接：https://blog.youkuaiyun.com/wu_tech/article/details/143276034

vllm 0.6.0开源大模型加速服务部署测试实战

一个开源的大模型推理加速框架，通过PagedAttention高效地管理attention中缓存的张量，实现了比HuggingFace Transformers高14-24倍的吞吐量。它兼容OpenAI的接口服务，并与HuggingFace模型无缝集成。

优点：

缺点：

你需要确保你的设备有GPU，CUDA或者RoCm.
添加自定义模型：虽然可以合并自己的模型，但如果模型没有使用与vLLM中现有模型类似的架构，则过程会变得更加复杂。例如，增加Falcon的支持，这似乎很有挑战性；
缺乏对适配器（LoRA、QLoRA等）的支持：当针对特定任务进行微调时，开源LLM具有重要价值。然而，在当前的实现中，没有单独使用模型和适配器权重的选项，这限制了有效利用此类模型的灵活性。
缺少权重量化：有时，LLM可能不需要使用GPU内存，这对于减少GPU内存消耗至关重要。