本地模型performance测试

import requests

import time

# ollama 的 API 地址

OLLAMA_API_URL = "http://127.0.0.1:11434/api/generate"

# 请求参数

payload = {

    "model": "qwen2:7b",  # 替换为你的模型名称

    "prompt": "目标检测的具体含义是什么?",  # 替换为你的输入文本

    "stream": False,  # 设置为 False,一次性返回完整结果

    "max_tokens": 100  # 设置生成的最大 token 数量

}

# 打印 model 和 prompt 信息

print(f"使用的模型: {payload['model']}")

print(f"输入的问题: {payload['prompt']}")

# 记录开始时间

start_time = time.time()

print(f"开始时间: {time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(start_time))}")

# 发送请求

response = requests.post(OLLAMA_API_URL, json=payload)

# 记录结束时间

end_time = time.time()

print(f"结束时间: {time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(end_time))}")

# 解析响应

if response.status_code == 200:

    result = response.json()

    # print(result)

    generated_text = result.get("response", "")

    generated_tokens = result.get("eval_count", 0)  # 获取生成的 token 数量

    elapsed_time = end_time - start_time

    # 计算每秒生成的 token 数量

    tokens_per_second = generated_tokens / elapsed_time

    print(f"模型回答: {generated_text}")

    print(f"生成时间: {elapsed_time:.2f}秒")

    print(f"生成 token 数量: {generated_tokens}")

    print(f"每秒生成 token 数量: {tokens_per_second:.2f}")

else:

    print(f"请求失败,状态码: {response.status_code}")

    print(f"错误信息: {response.text}")

### 部署Benchmark工具测试本地大型模型 对于希望评估和比较不同大规模预训练模型性能的研究人员来说,部署Benchmark工具是一个重要的环节。为了有效地完成这一目标,在准备阶段需确保拥有足够的硬件资源来支持所要测试模型运行。 #### 准备环境 安装必要的依赖项以及配置好Python虚拟环境是首要任务。这通常涉及到设置特定版本的PyTorch或其他深度学习框架,并确认CUDA驱动程序已正确安装以便利用GPU加速计算过程[^1]。 ```bash conda create -n benchmark_env python=3.8 conda activate benchmark_env pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu113 ``` #### 获取Benchmark套件 选择合适的Benchmark套件至关重要。针对自然语言处理领域内的大模型评测,可以考虑使用Hugging Face提供的`transformers`库配合自定义脚本或是第三方开发的专门用于模型评估的软件包如SuperCLUE等[^2]。 下载并解压所需工具后,按照官方文档说明进行初始化操作: ```python from transformers import pipeline, AutoModelForSequenceClassification, BertTokenizerFast model_name = "bert-base-chinese" tokenizer = BertTokenizerFast.from_pretrained(model_name) model = AutoModelForSequenceClassification.from_pretrained(model_name) classifier = pipeline('text-classification', model=model, tokenizer=tokenizer) ``` #### 设定评估标准 确立清晰明确的评价准则有助于更精准地衡量各个模型的表现差异。这些指标可能包括但不限于准确性、F1分数、BLEU得分等具体数值;同时也应该考虑到推理速度、内存占用率等方面因素以全面反映实际应用场景下的优劣之处。 #### 执行测试流程 一旦前期准备工作就绪,则可以通过调用预先编写好的接口函数向待测模型输入一系列精心挑选的数据样本集来进行批量预测作业。在此过程中务必记录下每次实验产生的中间结果文件,方便后续分析总结之用。 ```python import pandas as pd test_data_path = './data/test.csv' df_test = pd.read_csv(test_data_path) predictions = classifier(df_test['text'].tolist()) ``` #### 结果可视化展示 最后一步是对收集到的各项统计数据加以整理归纳并通过图表形式直观呈现出来。借助Matplotlib或Seaborn这样的绘图库能够轻松制作柱状图、折线图等多种类型的图形报告辅助理解最终结论。 ```python import matplotlib.pyplot as plt accuracy_scores = [0.95, 0.97, 0.96] models = ['Model A', 'Model B', 'Model C'] plt.bar(models, accuracy_scores) plt.xlabel('Models') plt.ylabel('Accuracy Score') plt.title('Comparison of Model Performance on Test Set') plt.show() ``` 通过上述步骤即可较为系统化地构建起一套完整的Benchmark体系用来考察本地环境中各类大型AI模型的实际效能表现情况。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值