0x00 背景
前不久,Meta前脚发布完开源大语言模型LLaMA,
随后就被网友“泄漏”,直接放了一个磁力链接下载链接。
然而那些手头没有顶级显卡的朋友们,就只能看看而已了
但是 Georgi Gerganov 开源了一个项目llama.cpp
ggerganov/llama.cpp: Port of Facebook’s LLaMA model in C/C++ (github.com)
次项目的牛逼之处就是没有GPU也能跑LLaMA模型
大大降低的使用成本,本文就是时间如何在我的 mac m1 pro 上面跑起来这个模型
llama.cpp:提供了一种模型量化和在本地CPU上部署方式
文本介绍了如何使用llama.cpp工具将深度学习模型进行量化并在本地CPU上部署的详细步骤。
以下是具体步骤的解释:
ç
0x01 Step1 环境准备
- 高版本python 3.10
pip install protobuf==3.20.0
pip install transformers 最新版
pip installsentencepiece (0.1.97测试通过)
pip install peft (0.2.0测试通过)
pip install git+https://github.com/huggingface/transformers
pip install sentencepiece
pip install peft
-
确保机器有足够的内存加载完整模型 ,7B模型需要13-15G
-
下载原版LLaMA模型的权重和tokenizer.model文件
下载参考这个[PR]https://github.com/facebookresearch/llama/pull/73/files
压缩包内文件目录如下(LLaMA-7B为例):
chinese_llama_lora_7b/
- adapter_config.json # LoRA权重配置文件
- adapter_model.bin # LoRA权重文件
- special_tokens_map.json # special_tokens_map文件
- tokenizer_config.json # tokenizer配