使用ExLlamaV2在本地运行大语言模型(LLMs):入门指南
引言
近年来,巨型语言模型(LLM)的飞速发展为自然语言处理和生成开启了新的可能性。然而,大多数LLM需要大量的计算资源,这对于普通开发者可能是一个挑战。本文将介绍如何使用ExLlamaV2库在现代消费级GPU上本地运行量化的大语言模型,帮助您在个人设备上实现高效的LLM推理。
主要内容
ExLlamaV2的安装
要使用ExLlamaV2,首先需要满足以下软件环境需求:
- Python 3.11
- LangChain 0.1.7
- CUDA 12.1.0
- Torch 2.1.1+cu121
- ExLlamaV2 0.0.12+cu121
可以通过以下命令安装ExLlamaV2:
pip install https://github.com/turboderp/exllamav2/releases/download/v0.0.12/exllamav2-0.0.12+cu121-cp311-cp311-linux_x86_64.whl
如果使用conda,可以配置以下依赖项:
- conda-forge::ninja
- nvidia/label/cuda-12.1.0::cuda
- conda-forge::ffmpeg
- conda-forge::gxx=11.4
模型下载与配置
ExLlamaV2支持GPTQ和EXL2量化模型,以下代码示例展示如何从Hugging Face下载这些模型:
import os
from huggingface_hub import snapshot_download
def download_GPT