为了测试vllm的并行加速效果,采用同样的5个提问,编写两个不同的python脚本,分别是compare_vllm.py和compare_chatglm3.py,其中compare_vllm.py采用vllm加速。
服务器参数:
操作系统 | ubuntu 22.04 |
CPU | i7 14700k |
内存 | dd5 128G |
显卡 | 3090 24G 两块 |
compare_vllm.py的代码如下:
import time
from vllm import LLM, SamplingParams
def main():
# 定义批量数据
desc = "这张图片中有一位母亲和儿子正在一起开心的笑母亲穿着花裙子,儿子穿着运动鞋和牛仔短裤,他们站在方形的砖块地面"
query = f"对于以下图片描述提取标签,每一个标签作为数组的一个元素,以JSON格式输出。只输出标签,不用解释:\n'{desc}'"
prompts = [
"中华人民共和国成立的日期是哪一天?",
"为什么AI在这一两年爆发了?",
query,
"中美人口分别是多少?美国有多少中国的移民?",
"你擅长数学计算吗?",
]
sampling_params = SamplingParams(temperature=0.1, top_p=0.5, max_tokens=4096)
path = '/home/data/mo