GGUF 量化模型推理性能评测：内存占用 & Tokens/s 测试指南

小澄加油

于 2025-02-25 20:42:26 发布

阅读量376

点赞数 6

分类专栏：开发笔记文章标签： AIGC 个人开发笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/2301_79948596/article/details/145861905

版权

开发笔记专栏收录该内容

2 篇文章

订阅专栏

如何检测大模型性能？

检测GGUF 模型文件需要多少内存以及它在不同硬件上能达到多少 tokens/s（推理吞吐量）

1.首先安装Llama.cpp

Llama.cpp是 支持 GGUF 格式 的高效推理引擎，提供 性能测试工具 方便测量推理速度。

安装：

git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp

2. 在 Windows 下，llama.cpp 需要 CMake 和 Visual Studio Build Tools进行编译。

下载适用于 Windows x64 的 CMake 安装程序：
请添加图片描述

安装时选择添加 CMake 到环境变量：
请添加图片描述

打开 PowerShell 或 CMD，运行：

cmake --version

输出版本号说明安装成功：
请添加图片描述
安装后可以直接在命令行使用 cmake 命令。

3.编译 llama.cpp

安装 CMake 之后，在PowerShell 或 CMD按照以下步骤编译：

cd C:\Users\用户名\llama.cpp
mkdir build
cd build
cmake ..
cmake --build . --config Release

运行后检查 bin/ 目录是否存在， llama-bench.exe 和 main.exe 是否生成，如果没有，删除旧的 build 目录，重新编译上一段代码.

删除旧的 build 目录:

rmdir /s /q build

4.运行 llama-bench 测试推理速度

使用 llama-bench 工具进行基准测试：

./build/bin/llama-bench -m 模型路径/模型.gguf -t 8 -n 256

-m 指定 GGUF 模型文件路径
-t 指定 CPU 线程数（如果使用 GPU，需要配置 CUDA/OpenCL）
-n 指定生成的 token 数

运行后，会输出如下图：

最大内存占用
tokens/s（推理速度）

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。