llama.cpp运行大模型失败，显示cuda error: cublas_status_invalid_value

最新推荐文章于 2025-05-13 10:50:51 发布

Code Horse

最新推荐文章于 2025-05-13 10:50:51 发布

阅读量350

点赞数 10

CC 4.0 BY-SA版权

文章标签： llama 人工智能

本文链接：https://blog.youkuaiyun.com/qq_40736019/article/details/147254902

从官网下载llama.cpp，运行本地大模型，出现cuda error

本机环境：
Ubuntu20.04
CUDA Driver 12.4
CUDA Toolkit 11.8
NVIDIA GeForce RTX 3090

从GitHub下载下载llama.cpp后，按照教程输入以下命令进行安装：

cmake -B build \
  -DGGML_CUDA=ON \
  -DCMAKE_CUDA_COMPILER=$(which nvcc)
 
cmake --build build --config Release -j4

安装成功后运行本地deepseek.gguf文件：

llama-cli --model ./DeepSeek-R1-Distill-Qwen-32B-Q5_K_M.gguf  --threads 16  --prompt '<｜User｜>请介绍一下杭州<｜Assistant｜>'

CPU版本顺利运行，但运行较慢。

更换GPU命令：

llama-cli --model ./DeepSeek-R1-Distill-Qwen-32B-Q5_K_M.gguf  --threads 16  --prompt '<｜User｜>请介绍一下杭州<｜Assistant｜>' --n-gpu-layers 65

出现bug ：cuda error: cublas_status_invalid_value

百四不得其解，查阅网上资料后无果。

解决方法：

升级cuda版本，我从cuda-11.8，升级cuda12.4版本，同时下载cudnn后，成功运行以上任务，速度也得到质的提升。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Code Horse

关注关注

10
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

10、ollama启动LLama_Factory微调大模型（llama.cpp）

Andy_shenzl的博客

08-30

3367

在介绍了如何使用LLama_Factory微调大模型，并将微调后的模型文件合并导出，本节我们我们看下如何使用ollama进行调用。

使用 GGUF 和 llama.cpp 量化 Llama 模型

最新发布

人工智能领域专家

07-06

696

由于大语言模型(LLMs)的庞大规模，量化已成为高效运行它们的关键技术。通过降低权重精度，可以在保留模型大部分性能的同时节省内存并加速推理。最近，8 位和 4 位量化技术实现了在消费级硬件上运行 LLMs 的可能性。结合 Llama 模型的发布及高效微调技术(LoRA、QLoRA)，这催生了一个丰富的本地 LLMs 生态系统，如今已能与 OpenAI 的 GPT-3.5 和 GPT-4 分庭抗礼。除本文介绍的基础方法外，主要有三种量化技术：NF4、GPTQ 和 GGML。

参与评论您还未登录，请先登录后发表或查看评论

用stable_diffusion_webui遇到CUBLAS_STATUS_INVALID_VALUE when calling cublasGemmStridedBatchedExFix 报错

T_T___T_T的博客

02-27

1451

用stable_diffusion_webui遇到CUBLAS_STATUS_INVALID_VALUE when calling cublasGemmStridedBatchedExFix 报错

AI训练环境-CUDA/cuDNN/paddle ——‘CUBLAS_STATUS_INVALID_VALUE‘.

weixin_42921328的博客

01-04

3784

运行报错 ‘CUBLAS_STATUS_INVALID_VALUE’. An unsupported value or parameter was passed to the function (a negative vector size, for example).

关于深度学习训练出现报错RuntimeError: CUDA error: an illegal memory access was encountered的解决方法之一

qq_2664243378的博客

05-13

1029

在深度学习训练过程中，首先要查看GPU是否有效的运用起来，如果未运用起来应首先解决该问题，这样可以少走很多弯路。

CUDA error: CUBLAS_STATUS_INVALID_VALUE when calling `cublasSgemm( handle, opa, opb, m, n, k, &alpha

qq_54052941的博客

08-30

5109

https://blog.csdn.net/u014176855/article/details/80994991 他的方法对我这个不奏效。检查发现是分类网络的全连接layer第一层神经元的数量设置错误。

【解决方案】RuntimeError: CUDA error: CUBLAS_STATUS_INVALID_VALUE

哒哒哒哒哒哒

06-27

2053

注: 以下为查看 PyTorch, cuda, cudnn 等版本的具体方法。

RuntimeError: CUDA error: CUBLAS_STATUS_INVALID_VALUE when calling `cublasSgemm解决

lxb206的博客

05-15

1万+

今天遇到的问题很奇怪，在相同的虚拟环境下，运行一个Pytorch的程序，在Pycharm中运行正常，但是通过命令行启动就会报上面的错误。而且在另一台服务器上，也是相同的环境，Pytorch版本一致，正常运行，这就导致这个问题更加奇怪。例如：数据传输过程中数据不时出现丢失的情况，偶尔会丢失一部分数据。

探索 Llama.cpp 与 Llama-cpp-python：轻松运行大型语言模型

dsndnwfk的博客

11-17

1158

Llama.cpp是一个支持多种LLM模型的C++库，而Llama-cpp-python是其Python绑定。通过Llama-cpp-python，开发者可以轻松在Python环境中运行这些模型，特别是在Hugging Face等平台上可用的模型。Llama-cpp-python提供了一种高效且灵活的方式来运行大型语言模型。LLM概念指南。

llama.cpp cmake编译问题解决（error: unknown type name ‘cpu_set_t‘ ）

zhzy666666的博客

05-27

1718

llama.cpp cmake编译问题解决（报错：error: unknown type name 'cpu_set_t' ）

【学习笔记】：Ubuntu 22 使用模型量化工具llama.cpp部署大模型 CPU+GPU

qq_44305583的博客

03-13

6282

Ububtu22下模型量化工具llama.cpp及llama-cpp-python部署应用。

解决报错：CUBLAS_STATUS_INVALID_VALUE when calling `cublasSgemmStridedBatched( handle, opa, opb, m......

零碎@流年絮语的博客

09-26

5759

以指定特定路径，取消设置后，系统将不再搜索该路径中的共享库。确保您的系统仍然能够找到所需的共享库文件，否则可能会导致应用程序无法正常工作。环境变量的值删除，这意味着系统将使用默认的库搜索路径来查找共享库文件。用于指定共享库文件（例如动态链接库）的搜索路径。通过设置这个环境变量，您可以告诉系统在哪里查找共享库，以便在运行时加载它们。很多是由于nn.Linner层的 Tensor 尺寸匹配问题，打印下张量的维shape属性，显然我的尺寸也是符合乘法操作的。后，您的系统将使用默认的共享库搜索路径。

[解决方法] RuntimeError: CUDA error: CUBLAS_STATUS_INVALID_VALUE when calling cublasSgemmStridedBatched

东皇太一在此的博客

03-15

1002

注意会不会影响其他环境变量的设置；

RuntimeError: CUDA error: CUBLAS_STATUS_INVALID_VALUE 解决方案之一

热门推荐

qq_44643484的博客

06-13

1万+

解决方案：RuntimeError: CUDA error: CUBLAS_STATUS_EXECUTION_FAILED when calling cublasSgemm( handle, opa, opb, m, n, k, &alpha, a, lda, b, ldb, &beta, c, ldc)

llama.cpp 编译和运行指南并支持CUDA

m0_49966129的博客

07-18

1729

让llama.cpp最好的适配你的机器并支持CUDA，你需要确保你的系统安装了CUDA，并在编译过程中启用CUDA支持。

llama-cpp-python CUDA error问题

qdd000的专栏

03-11

1124

安装完 cuBLAS(CUDA) 版本的 llama-cpp-python跑模型，指定出现 CUDA error。

使用llama.cpp在linux cuda环境部署llama2方法记录及遇到的问题

weixin_46566149的博客

12-04

2540

添加 CUDA_DOCKER_ARCH参数，可先尝试改为=all，无法解决的话，其他参数值自行对应cuda尝试，如：compute_75，使用make，nvcc为cuda安装位置。因硬件资源足够，则不j继续进行量化。

llama.cpp 安装使用（支持CPU、Metal及CUDA的单卡/多卡推理）

宇宙有只 AGI 的博客

10-09

1615

1. 详细步骤 1.1 安装 cuda 等 nvidia 依赖(非CUDA环境运行可跳过) # 以 CUDA Toolkit 12.4: Ubuntu-22.04/24.04(x86_64) 为例，注意区分 WSL 和 Ubuntu，详见 https://developer.nvidia.com/cuda-12-4-1-download-archive?target_os=Linux&ta...

实测大模型--人工智障 llama3.2:3b 1.1 and 1.2 which is bigger?

QQ群166477105Python技术群

09-27

279

实测大模型–人工智障。

win11安装llama.cpp运行legal-llama:7b-q4模型的方法

03-20

<think>好的，我需要帮助用户在Windows 11上通过llama.cpp安装和运行legal-llama 7B Q4模型。首先，我得回忆一下相关的步骤，可能需要参考之前提到的引用，比如使用llama.cpp在CPU上运行量化模型的情况。用户提到他们之前在Mac M1上遇到问题，现在转向Windows 11，所以需要注意不同系统的差异。首先，用户需要安装llama.cpp。这通常需要从GitHub克隆仓库，然后编译。Windows上可能需要用CMake或者Visual Studio来编译，不过llama.cpp可能已经提供了预编译的二进制文件，或者详细的编译指南。我需要确认是否需要用户自己编译，或者有没有现成的可执行文件。接下来是模型下载。用户提到的legal-llama 7B Q4模型应该是指已经量化到4位的版本。需要找到正确的模型链接，比如Hugging Face上的资源。引用中的链接是StableLM的，可能需要用户到StabilityAI的Hugging Face页面查找，或者直接给出legal-llama的具体链接。不过用户可能已经知道模型的位置，所以需要指导他们如何下载并转换模型格式，比如将原始的PyTorch模型转换为ggml格式，再量化为Q4。不过如果是现成的ggml格式的Q4模型，可能直接下载就能用。然后，运行模型需要确保llama.cpp支持该模型架构。Legal-Llama可能基于Llama 1或2，需要确认兼容性。如果模型是Llama 2，可能需要用户申请访问权限，下载原始模型文件，然后进行转换和量化。但用户提到Q4，可能已经有现成的量化版本，比如ggml-model-q4_0.bin这样的文件。步骤可能包括：安装必要的依赖项，如Python、Git、CMake；克隆llama.cpp仓库；编译项目；下载模型并转换；最后运行。另外，Windows上可能需要使用PowerShell或者命令提示符来执行命令，注意路径和权限问题。可能遇到的问题：编译错误，模型路径不正确，缺少依赖库，或者量化步骤出错。用户可能需要安装Visual Studio的构建工具，或者使用预编译的二进制文件。此外，模型文件较大，需要确保磁盘空间足够。最后，根据引用[2]中的模型链接，可能需要引导用户到正确的Hugging Face页面下载模型，比如StabilityAI的仓库，或者直接搜索legal-llama。不过具体模型的链接可能需要进一步确认，如果用户提供的引用中没有，可能需要用户自行查找，但根据问题描述，用户可能已经知道模型的位置，所以重点放在安装和运行步骤上。总结步骤： 1. 安装构建工具（如CMake、Visual Studio）。 2. 克隆llama.cpp仓库并编译。 3. 下载legal-llama 7B Q4模型文件。 4. 运行llama.cpp的可执行文件，指定模型路径。需要详细说明每一步的具体操作，特别是编译和模型处理的步骤，确保用户能正确执行。</think>在 Windows 11 上通过 `llama.cpp` 运行 **legal-llama 7B Q4** 模型的步骤如下： --- ### 一、环境准备 1. **安装构建工具** 确保已安装以下工具： - **Visual Studio 2022**：选择“使用 C++ 的桌面开发”工作负载[^1] - **CMake**：从 [cmake.org](https://cmake.org/download/) 下载并安装 - **Git**：从 [git-scm.com](https://git-scm.com/) 安装 2. **克隆 llama.cpp 仓库** 打开 PowerShell 或命令提示符，执行： ```bash git clone https://github.com/ggerganov/llama.cpp cd llama.cpp ``` --- ### 二、编译 llama.cpp 1. **生成构建目录** ```bash mkdir build cd build cmake .. -DLLAMA_CUBLAS=ON # 如果有 NVIDIA GPU 可启用 CUDA 加速 cmake --build . --config Release ``` 编译完成后，`build/bin/Release` 目录会生成 `main.exe` 和 `quantize.exe`。 --- ### 三、下载并转换模型 1. **下载 legal-llama 7B Q4 模型** - 从 Hugging Face 获取模型文件（例如：[stabilityai 仓库](https://huggingface.co/stabilityai) 或社区分享的链接[^2]） - 需确保文件为 `ggml` 格式（如 `ggml-model-q4_0.bin`） 2. **将模型放入正确目录** 在 `llama.cpp` 根目录下创建 `models` 文件夹，并将模型文件放入其中： ``` llama.cpp/ ├── models/ │ └── legal-llama-7b-q4.ggmlv3.q4_0.bin ``` --- ### 四、运行模型 1. **启动推理** 在 PowerShell 中执行： ```bash .\build\bin\Release\main.exe -m models/legal-llama-7b-q4.ggmlv3.q4_0.bin -p "你的提示文本" -n 512 ``` - `-n 512` 表示生成 512 个 token - 添加 `--threads 8` 可指定 CPU 线程数以加速 2. **量化模型（可选）** 如果原始模型未量化，需使用 `quantize.exe` 转换： ```bash .\build\bin\Release\quantize.exe models/原始模型.bin models/量化后模型.bin q4_0 ``` --- ### 五、常见问题 - **编译失败**：检查 Visual Studio 的 C++ 组件是否安装完整 - **模型无法加载**：确认模型路径正确且为 `ggml` 格式 - **性能优化**：启用 CUDA（需 NVIDIA GPU）或调整线程数 ---