实测VLLM的加速效果

最新推荐文章于 2025-06-23 10:18:31 发布

丹宇码农

最新推荐文章于 2025-06-23 10:18:31 发布

阅读量2.4k

点赞数 8

CC 4.0 BY-SA版权

分类专栏： AI 文章标签：人工智能 VLLM chatglm3-6b

本文链接：https://blog.youkuaiyun.com/happyweb/article/details/136435413

为了测试vllm的并行加速效果，采用同样的5个提问，编写两个不同的python脚本，分别是compare_vllm.py和compare_chatglm3.py，其中compare_vllm.py采用vllm加速。

服务器参数：

操作系统	ubuntu 22.04
CPU	i7 14700k
内存	dd5 128G
显卡	3090 24G 两块

compare_vllm.py的代码如下：

import time
from vllm import LLM, SamplingParams


def main():
    # 定义批量数据
    desc = "这张图片中有一位母亲和儿子正在一起开心的笑母亲穿着花裙子，儿子穿着运动鞋和牛仔短裤，他们站在方形的砖块地面"
    query = f"对于以下图片描述提取标签，每一个标签作为数组的一个元素，以JSON格式输出。只输出标签，不用解释:\n'{desc}'"
        
    prompts = [
        "中华人民共和国成立的日期是哪一天？",
        "为什么AI在这一两年爆发了?",
        query,
        "中美人口分别是多少？美国有多少中国的移民？",
        "你擅长数学计算吗？",
    ]
    sampling_params = SamplingParams(temperature=0.1, top_p=0.5, max_tokens=4096)
    path = '/home/data/mo