Llama-2 和Llama-3评估大模型

最新推荐文章于 2025-12-26 18:13:00 发布

m0_70960708

最新推荐文章于 2025-12-26 18:13:00 发布

阅读量131

点赞数

CC 4.0 BY-SA版权

分类专栏：笔记文章标签： java 算法 linux

本文链接：https://blog.youkuaiyun.com/m0_70960708/article/details/140820876

笔记专栏收录该内容

624 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

01 加载模型
为了全面测试这些模型，我选择使用 Python 库Llama-cpp[3] 进行测试，该工具的一大优点在于其既能适应 CPU 环境，也能在 GPU 上高效运行。我们需要并行运行两个 LLM。好消息是，无论是 7B 还是 8B 的模型，都能在 Google Colab 的 16GB GPU 环境中顺畅运行。然而，当面对 70B 参数级别的庞大模型时，我们不得不退而求其次，转而使用 CPU 进行测试，因为即便是顶级的 NVIDIA A100 显卡，其内存容量也难以承担起同时运行两个此类巨无霸模型的重任。

首先需要我们先动手安装 Llama-cpp，紧接着下载 7B 与 8B 参数级别的这两个模型。至于 70B 参数级别的模型，其操作流程基本一致，唯一的区别仅在于替换其下载链接而已。

!CMAKE_ARGS="-DLLAMA_CUBLAS=on" FORCE_CMAKE=1 pip3 install llama-cpp-python -U
!pip3 install huggingface-hub hf-transfer sentence-transformers

!export HF_HUB_ENABLE_HF_TRANSFER="1" && huggingface-cli download TheBloke/Llama-2-7B-Chat-GGUF llama-2-7b-chat.Q4_K_M.gguf --local-dir /content --local-dir-use-symlinks False
!export HF_HUB_ENABLE_HF_TRANSFER="1" && huggingface-cli download Qua

了解本专栏