llama.cpp运行大模型失败,显示cuda error: cublas_status_invalid_value

从官网下载llama.cpp,运行本地大模型,出现cuda error

本机环境:
Ubuntu20.04
CUDA Driver 12.4
CUDA Toolkit 11.8
NVIDIA GeForce RTX 3090

GitHub下载下载llama.cpp后,按照教程输入以下命令进行安装:

cmake -B build \
  -DGGML_CUDA=ON \
  -DCMAKE_CUDA_COMPILER=$(which nvcc)
 
cmake --build build --config Release -j4

安装成功后运行本地deepseek.gguf文件:

llama-cli --model ./DeepSeek-R1-Distill-Qwen-32B-Q5_K_M.gguf  --threads 16  --prompt '<|User|>请介绍一下杭州<|Assistant|>' 

CPU版本顺利运行,但运行较慢。

更换GPU命令:

llama-cli --model ./DeepSeek-R1-Distill-Qwen-32B-Q5_K_M.gguf  --threads 16  --prompt '<|User|>请介绍一下杭州<|Assistant|>' --n-gpu-layers 65

出现bug :cuda error: cublas_status_invalid_value

百四不得其解,查阅网上资料后无果。

解决方法:

升级cuda版本,我从cuda-11.8,升级cuda12.4版本,同时下载cudnn后,成功运行以上任务,速度也得到质的提升。

"llama.cpp"通常是一个程序名或者涉及到某个特定项目的文件名,它可能包含了一个用于部署Parler-TTS模型的具体部分,比如Parler_TTS_mini_v0.1。Parler-TTS是一种文本转语音(TTS)模型,Mini版本可能是轻量级或者资源优化后的版本。 要部署Parler-TTS/parler_tts_mini_v0.1模型,你需要按照以下步骤操作: 1. **下载模型**:首先从GitHub或其他官方仓库下载Parler_TTS Mini模型的预训练权重或者源码包。通常会有一个`requirements.txt`文件列出了依赖项。 ```bash git clone https://github.com/parlertts/parlertts.git cd parlertts/parler_tts_mini_v0.1 ``` 2. **安装依赖**:如果需要,运行`pip install -r requirements.txt`来安装模型所需的Python库。 3. **配置**:检查`config.py`或者其他配置文件,根据你的需求调整模型路径、音素字典等设置。 4. **加载模型**:在`llama.cpp`或其他相关的C++代码中,通过适当的方式加载PyTorch或TensorFlow的模型。如果你使用的是一些库提供的接口,如Caffe2的Python-C API,那么可能会有对应的封装函数来导入模型。 5. **处理输入**:将文本转换成模型可以接受的格式,并进行相应的前处理。 6. **生成音频**:调用模型对输入的文本进行预测,然后使用音频处理工具将其转化为WAV或其他格式的音频文件。 7. **测试与部署**:在本地测试模型性能,确保输出满意。如果是为了部署到服务器,可能需要打包成可执行文件或服务。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值