从官网下载llama.cpp,运行本地大模型,出现cuda error
本机环境:
Ubuntu20.04
CUDA Driver 12.4
CUDA Toolkit 11.8
NVIDIA GeForce RTX 3090
从GitHub下载下载llama.cpp后,按照教程输入以下命令进行安装:
cmake -B build \
-DGGML_CUDA=ON \
-DCMAKE_CUDA_COMPILER=$(which nvcc)
cmake --build build --config Release -j4
安装成功后运行本地deepseek.gguf文件:
llama-cli --model ./DeepSeek-R1-Distill-Qwen-32B-Q5_K_M.gguf --threads 16 --prompt '<|User|>请介绍一下杭州<|Assistant|>'
CPU版本顺利运行,但运行较慢。
更换GPU命令:
llama-cli --model ./DeepSeek-R1-Distill-Qwen-32B-Q5_K_M.gguf --threads 16 --prompt '<|User|>请介绍一下杭州<|Assistant|>' --n-gpu-layers 65
出现bug :cuda error: cublas_status_invalid_value
百四不得其解,查阅网上资料后无果。
解决方法:
升级cuda版本,我从cuda-11.8,升级cuda12.4版本,同时下载cudnn后,成功运行以上任务,速度也得到质的提升。