实测VLLM的加速效果

为了测试vllm的并行加速效果,采用同样的5个提问,编写两个不同的python脚本,分别是compare_vllm.py和compare_chatglm3.py,其中compare_vllm.py采用vllm加速。

服务器参数:

操作系统 ubuntu 22.04
CPU i7 14700k
内存 dd5 128G
显卡 3090 24G 两块

compare_vllm.py的代码如下:

import time
from vllm import LLM, SamplingParams


def main():
    # 定义批量数据
    desc = "这张图片中有一位母亲和儿子正在一起开心的笑母亲穿着花裙子,儿子穿着运动鞋和牛仔短裤,他们站在方形的砖块地面"
    query = f"对于以下图片描述提取标签,每一个标签作为数组的一个元素,以JSON格式输出。只输出标签,不用解释:\n'{desc}'"
        
    prompts = [
        "中华人民共和国成立的日期是哪一天?",
        "为什么AI在这一两年爆发了?",
        query,
        "中美人口分别是多少?美国有多少中国的移民?",
        "你擅长数学计算吗?",
    ]
    sampling_params = SamplingParams(temperature=0.1, top_p=0.5, max_tokens=4096)
    path = '/home/data/mo
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值