大家好,像LLaMA 2这样的新开源模型已经变得相当先进,并且可以免费使用。可以在商业上使用它们,也可以根据自己的数据进行微调,以开发专业版本。凭借其易用性,现在可以在自己的设备上本地运行它们。
本文将介绍如何下载所需的文件和LLaMA 2模型,以运行CLI程序并与AI助手进行交互。设置非常简单,即使是非技术用户或学生也可以按照这几个基本步骤进行操作。
1.下载Llama.cpp用于GPU机器
要在本地安装llama.cpp,最简单的方法是从llama.cpp releases中下载预编译的可执行文件。
要在配备有NVIDIA GPU的Windows 11上安装它,我们首先需要下载llama-master-eb542d3-bin-win-cublas-[version]-x64.zip
文件。下载完成后,将其解压缩到你选择的目录中。建议创建一个新文件夹并将所有文件提取到其中。
接下来,我们将下载cuBLAS驱动程序cudart-llama-bin-win-[version]-x64.zip
,并将其解压缩到主目录中。要使用GPU加速,你有两个选项:NVIDIA GPU的cuBLAS
和AMD GPU的clBLAS
。
注意:[version]是指本地系统上安装的CUDA版本。可以通过在终端中运行
nvcc --version
来检查它。