LLaMA-Factory 快速入门(一):Mac 下大模型微调部署的服务启动与测试
环境准备与依赖安装
确保Mac系统版本为macOS Monterey(12.3)或更高,配备Apple Silicon(M1/M2)芯片以获得最佳性能。通过Homebrew安装Python 3.9或更高版本:
brew install python@3.9
创建虚拟环境并激活:
python3 -m venv llama-env
source llama-env/bin/activate
安装PyTorch时选择适配Apple芯片的版本:
pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/nightly/cpu
下载与配置LLaMA-Factory
克隆官方仓库并安装依赖:
git clone https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -r requirements.txt
配置模型路径时需指定本地已下载的基座模型(如LLaMA-2-7B),修改configs/model_config.yaml文件:
model_name_or_path: "/path/to/llama-2-7b-hf"
启动微调服务
运行训练脚本前需准备JSON格式的微调数据集,示例命令使用LoRA低秩适配:
python src/train_bash.py \
--stage sft \
--do_train \
--model_name_or_path /path/to/llama-2-7b-hf \
--dataset_dir data \
--lora_target q_proj,v_proj \
--output_dir output
启动Web UI测试服务:
python src/web_demo.py \
--model_name_or_path /path/to/llama-2-7b-hf \
--adapter_name_or_path output
功能测试与验证
访问http://localhost:7860进入交互界面,输入测试文本观察生成效果。通过API测试验证服务响应:
curl -X POST "http://localhost:8000/generate" \
-H "Content-Type: application/json" \
-d '{"inputs":"Explain quantum computing"}'
性能监控与优化
使用htop监控内存占用,针对Apple芯片启用mps后端加速:
import torch
device = torch.device("mps")
调整batch_size和gradient_accumulation_steps参数平衡显存与训练速度。
常见问题解决
若遇到RuntimeError: CUDA out of memory,需减少per_device_train_batch_size。日志文件默认保存在output/training.log,可通过grep快速定位错误。
通过上述步骤,可在Mac环境下完成从环境配置到服务测试的完整流程。后续可尝试量化部署或自定义数据集进阶优化。

被折叠的 条评论
为什么被折叠?



