如何检测大模型性能?
检测GGUF 模型文件需要多少内存以及它在不同硬件上能达到多少 tokens/s(推理吞吐量)
1.首先安装Llama.cpp
Llama.cpp是 支持 GGUF 格式 的高效推理引擎,提供 性能测试工具 方便测量推理速度。
安装:
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
2. 在 Windows 下,llama.cpp
需要 CMake 和 Visual Studio Build Tools进行编译。
下载适用于 Windows x64 的 CMake 安装程序:
安装时选择添加 CMake 到环境变量:
打开 PowerShell 或 CMD,运行:
cmake --version
输出版本号说明安装成功:
安装后可以直接在命令行使用 cmake
命令。
3.编译 llama.cpp
安装 CMake 之后,在PowerShell 或 CMD按照以下步骤编译:
cd C:\Users\用户名\llama.cpp
mkdir build
cd build
cmake ..
cmake --build . --config Release
运行后检查 bin/
目录是否存在, llama-bench.exe
和 main.exe
是否生成,如果没有,删除旧的 build 目录,重新编译上一段代码.
删除旧的 build 目录:
rmdir /s /q build
4.运行 llama-bench
测试推理速度
使用 llama-bench
工具进行基准测试:
./build/bin/llama-bench -m 模型路径/模型.gguf -t 8 -n 256
-m
指定 GGUF 模型文件路径-t
指定 CPU 线程数(如果使用 GPU,需要配置 CUDA/OpenCL)-n
指定生成的 token 数
运行后,会输出如下图:
- 最大内存占用
- tokens/s(推理速度)