GGUF 量化模型推理性能评测:内存占用 & Tokens/s 测试指南

如何检测大模型性能?

检测GGUF 模型文件需要多少内存以及它在不同硬件上能达到多少 tokens/s(推理吞吐量)

1.首先安装Llama.cpp

Llama.cpp是 支持 GGUF 格式 的高效推理引擎,提供 性能测试工具 方便测量推理速度。

安装:

git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp

2. 在 Windows 下,llama.cpp 需要 CMake 和 Visual Studio Build Tools进行编译。

下载适用于 Windows x64 的 CMake 安装程序:
请添加图片描述

安装时选择添加 CMake 到环境变量:
请添加图片描述

打开 PowerShell 或 CMD,运行:

cmake --version

输出版本号说明安装成功:
请添加图片描述
安装后可以直接在命令行使用 cmake 命令。

3.编译 llama.cpp

安装 CMake 之后,在PowerShell 或 CMD按照以下步骤编译:

cd C:\Users\用户名\llama.cpp
mkdir build
cd build
cmake ..
cmake --build . --config Release

运行后检查 bin/ 目录是否存在, llama-bench.exemain.exe 是否生成,如果没有,删除旧的 build 目录,重新编译上一段代码.

删除旧的 build 目录:

rmdir /s /q build 

4.运行 llama-bench 测试推理速度

使用 llama-bench 工具进行基准测试:

./build/bin/llama-bench -m 模型路径/模型.gguf -t 8 -n 256
  • -m 指定 GGUF 模型文件路径
  • -t 指定 CPU 线程数(如果使用 GPU,需要配置 CUDA/OpenCL)
  • -n 指定生成的 token 数

运行后,会输出如下图:

  • 最大内存占用
  • tokens/s(推理速度)
    请添加图片描述
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值