本地模型performance测试

最新推荐文章于 2025-12-05 11:17:30 发布

原创最新推荐文章于 2025-12-05 11:17:30 发布 · 294 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

import requests

import time

# ollama 的 API 地址

OLLAMA_API_URL = "http://127.0.0.1:11434/api/generate"

# 请求参数

payload = {

"model": "qwen2:7b", # 替换为你的模型名称

"prompt": "目标检测的具体含义是什么？", # 替换为你的输入文本

"stream": False, # 设置为 False，一次性返回完整结果

"max_tokens": 100 # 设置生成的最大 token 数量

}

# 打印 model 和 prompt 信息

print(f"使用的模型: {payload['model']}")

print(f"输入的问题: {payload['prompt']}")

# 记录开始时间

start_time = time.time()

print(f"开始时间: {time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(start_time))}")

# 发送请求

response = requests.post(OLLAMA_API_URL, json=payload)

# 记录结束时间

end_time = time.time()

print(f"结束时间: {time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(end_time))}")

# 解析响应

if response.status_code == 200:

result = response.json()

# print(result)

generated_text = result.get("response", "")

generated_tokens = result.get("eval_count", 0) # 获取生成的 token 数量

elapsed_time = end_time - start_time

# 计算每秒生成的 token 数量

tokens_per_second = generated_tokens / elapsed_time

print(f"模型回答: {generated_text}")

print(f"生成时间: {elapsed_time:.2f}秒")

print(f"生成 token 数量: {generated_tokens}")

print(f"每秒生成 token 数量: {tokens_per_second:.2f}")

else:

print(f"请求失败，状态码: {response.status_code}")

print(f"错误信息: {response.text}")

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

iffy1

关注关注

4
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

AI测试实战：手把手教你做LLM（大模型）性能测试「含完整代码」

blues_C的博客

06-23

1029

大模型API性能测试是评估模型服务响应能力、吞吐量和资源效率的关键手段。核心指标包括总响应时间、吐字率、首token延迟、输入/输出tokens数量、QPM等。测试流程涵盖构造负载、并发请求、数据采集和指标计算。优化建议针对吐字率低、首token延迟高、QPM偏低等问题，从模型、硬件、系统等多层面提出解决方案。

使用DeepEval提升大型语言模型的测试效率

fqhwsdrguk的博客

12-06

1021

DeepEval为大型语言模型的测试提供了一个强大的工具集，通过集成与单元测试，提高了模型的稳定性和迭代速度。建议开发者结合更多文档与实际应用场景，深入理解并优化测试策略。

参与评论您还未登录，请先登录后发表或查看评论

Ollama测试本地部署大模型性能

破烂PAN 的博客

07-22

2005

增加批量大小可提高硬件利用率，但需避免显存溢出。多 GPU/CPU 核心可加速推理，通过。Ollama 提供了。

大模型性能测试工具

alankuo的专栏

09-27

952

好的，关于大模型性能测试工具，这是一个非常重要且活跃的领域。随着“百模大战”的展开，如何科学、全面地评估大语言模型（LLM）的能力变得至关重要。和。

LLM大模型测试策略与方法

2301_82275412的博客

06-29

2432

DeepEval是一个用于对语言模型（LLM）应用进行评估和单元测试的框架。它提供了各种指标，可以测试语言模型应用生成的回复在相关性、一致性、无偏见性和无毒性等方面的表现。DeepEval使得机器学习工程师可以通过持续集成/持续交付(CI/CD)流程快速评估语言模型应用的性能。此前分享过一篇LLM评估指标的文章，这篇文章深入探讨如何使用指标进行LLM评估。

零成本部署！DeepEval本地模型评测方案：数据安全+全流程可控的LLM测试实践

gitblog_00686的博客

08-28

1260

你是否还在为LLM（大语言模型）测试时的数据隐私担忧？是否因依赖第三方API导致评测成本居高不下？DeepEval本地模型评测方案将彻底解决这些痛点。通过本文，你将掌握如何在本地环境中完成LLM全流程测试，实现数据零出境、成本大幅降低，同时保证评测结果的准确性和可靠性。 ## 本地评测的核心优势在AI应用开发中，模型评测是确保产品质量的关键环节。传统基于云端API的评测方案存在三大痛点：数据...

大模型本地部署Llama3-8B/70B 并进行逻辑推理测试

2301_81940605的博客

11-29

1304

Llama3模型是目前在8B和70B参数尺度上存在的最好的模型。训练后程序的改进大大降低了错误拒绝率，改善了一致性，增加了模型响应的多样性。

Mac Book M3 Max 64G 如何拿捏 Ollama 本地大模型 Llama3

爱死亡机器人

04-25

5444

命令Usage:llama 2 很难满足办公的需求，只能进行简单的对话、文学、谈话、科普、故事等等。基本满足日常办公需求，并且本地反应也足够快速，感觉和chatgpt 3.5 相差不大。优点：文学模仿已经能够get你的点。旅行攻略像小红书一样。但不够具体，需要更进一步交互对话。缺点：反应慢，对电脑要求配置高。不适用个人电脑适用，更适合企业离线（网络隔离）的环境。

从零开始：H20服务器上DeepSeek R1 671B大模型部署与压力测试全攻略

wangli的博客

03-02

1万+

最近，我有幸在工作中接触到了DeepSeek R1 671B模型，这是目前中文开源领域参数量最大的高质量模型之一。DeepSeek团队在2024年推出的这款模型，以其惊人的6710亿参数量和出色的推理性能，引起了业界广泛关注。作为一名AI基础设施工程师，我有机会在H20服务器上部署这个庞然大物，并对其进行了全面的压力测试。这篇文章将详细记录我的部署过程和性能测试方法，希望能为大家提供一些参考。💡为什么选择DeepSeek R1？超大规模参数量（671B）优秀的中英文理解能力开源可商用的许可证。

ContentVec模型CI测试报告

gitblog_00995的博客

09-23

796

- 提交哈希: {{ commit_hash }} - 测试时间: {{ timestamp }} - 测试环境: {{ environment }} ## 测试结果概览 | 测试类型 | 结果 | 耗时 | |---------|------|------| | 单元测试 | {{ unit_test_result }} | {{ unit_test_duration }} | | 性能测试 ...

本地部署语言识别与合成模型SenseVoice、ChatTTS

qq_53644284的博客

08-03

616

手把手教你如何本地部署语音识别与语音合成库，附带源码

jmeter如何测试大模型性能

alankuo的专栏

09-20

369

使用测试大语言模型（LLM）的性能是一种有效的方法，尤其适合评估部署在 Web 服务器上的 LLM API 服务在高并发下的表现。JMeter 作为一个强大的负载测试工具，可以模拟大量用户并发请求，测量吞吐量、延迟、错误率等关键指标。

【模式识别与机器学习（8）】主要算法与技术（下篇：高级模型与集成方法）之元学习与集成方法：组合多个学习器来提高整体性能

hiliang521的博客

12-02

843

【模式识别与机器学习（8）】主要算法与技术（下篇：高级模型与集成方法）之元学习

TensorRT笔记（5）：研究timingCache

ouliten的博客

12-02

993

在里出现了大量的timingCache，但是当时没有取研究这是干啥的，本文就来解析一下。样例都基于上面的文章。

大模型应用：大模型 MapReduce 全解析：核心概念、中文语料示例实现.12

minhuan的专栏

12-03

1106

本文介绍了MapReduce编程模型及其在大模型训练中的应用。MapReduce通过"分治-并行-聚合"思想处理大规模数据，传统Hadoop MapReduce侧重结构化数据计算，而大模型MapReduce则针对自然语言处理任务。文章详细对比了两者在架构、处理对象和核心算力等方面的差异，并提供了中文词频统计的Python实现示例，包括单机版和分布式版本。分布式实现利用多进程模拟集群计算，展示了数据分片、Map、Shuffle和Reduce的完整流程。

人工智能的基石之三：硬件

热门推荐

二哈喇子！

12-01

2万+

昇腾平台vLLM部署与性能优化实战摘要

DL00596：基于Transformer的SDN环境流量异常检测

2504_94303570的博客

12-01

355

经过实测，在万兆链路上用64长度窗口，处理延迟能压在15ms以内，基本不影响正常业务。流量异常检测在SDN（软件定义网络）里是个刺激的活儿。传统方法面对动态变化的网络拓扑就像拿渔网抓蚊子，Transformer这种能捕捉长距离依赖的模型倒是很对路子。咱们今天不整虚的，直接上代码看看怎么用PyTorch搞个能跑起来的检测器。我的土办法是每6小时重新做一次归一化参数校准，同时维护一个动态阈值：取最近1小时误差的95分位数作为报警线。这里有个坑：不同维度的特征数值差异太大，持续时间可能几百秒，包数直接上万。

怎么部署Benchmark来测试本地大模型

02-27

### 部署Benchmark工具测试本地大型模型对于希望评估和比较不同大规模预训练模型性能的研究人员来说，部署Benchmark工具是一个重要的环节。为了有效地完成这一目标，在准备阶段需确保拥有足够的硬件资源来支持所要测试的模型运行。 #### 准备环境安装必要的依赖项以及配置好Python虚拟环境是首要任务。这通常涉及到设置特定版本的PyTorch或其他深度学习框架，并确认CUDA驱动程序已正确安装以便利用GPU加速计算过程[^1]。 ```bash conda create -n benchmark_env python=3.8 conda activate benchmark_env pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu113 ``` #### 获取Benchmark套件选择合适的Benchmark套件至关重要。针对自然语言处理领域内的大模型评测，可以考虑使用Hugging Face提供的`transformers`库配合自定义脚本或是第三方开发的专门用于模型评估的软件包如SuperCLUE等[^2]。下载并解压所需工具后，按照官方文档说明进行初始化操作： ```python from transformers import pipeline, AutoModelForSequenceClassification, BertTokenizerFast model_name = "bert-base-chinese" tokenizer = BertTokenizerFast.from_pretrained(model_name) model = AutoModelForSequenceClassification.from_pretrained(model_name) classifier = pipeline('text-classification', model=model, tokenizer=tokenizer) ``` #### 设定评估标准确立清晰明确的评价准则有助于更精准地衡量各个模型的表现差异。这些指标可能包括但不限于准确性、F1分数、BLEU得分等具体数值；同时也应该考虑到推理速度、内存占用率等方面因素以全面反映实际应用场景下的优劣之处。 #### 执行测试流程一旦前期准备工作就绪，则可以通过调用预先编写好的接口函数向待测模型输入一系列精心挑选的数据样本集来进行批量预测作业。在此过程中务必记录下每次实验产生的中间结果文件，方便后续分析总结之用。 ```python import pandas as pd test_data_path = './data/test.csv' df_test = pd.read_csv(test_data_path) predictions = classifier(df_test['text'].tolist()) ``` #### 结果可视化展示最后一步是对收集到的各项统计数据加以整理归纳并通过图表形式直观呈现出来。借助Matplotlib或Seaborn这样的绘图库能够轻松制作柱状图、折线图等多种类型的图形报告辅助理解最终结论。 ```python import matplotlib.pyplot as plt accuracy_scores = [0.95, 0.97, 0.96] models = ['Model A', 'Model B', 'Model C'] plt.bar(models, accuracy_scores) plt.xlabel('Models') plt.ylabel('Accuracy Score') plt.title('Comparison of Model Performance on Test Set') plt.show() ``` 通过上述步骤即可较为系统化地构建起一套完整的Benchmark体系用来考察本地环境中各类大型AI模型的实际效能表现情况。