LLaMA-Factory 快速入门（一）：Mac 下大模型微调部署的服务启动与测试-优快云博客

LLaMA-Factory 快速入门（一）：Mac 下大模型微调部署的服务启动与测试

环境准备与依赖安装

确保Mac系统版本为macOS Monterey（12.3）或更高，配备Apple Silicon（M1/M2）芯片以获得最佳性能。通过Homebrew安装Python 3.9或更高版本：

brew install python@3.9

创建虚拟环境并激活：

python3 -m venv llama-env
source llama-env/bin/activate

安装PyTorch时选择适配Apple芯片的版本：

pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/nightly/cpu

下载与配置LLaMA-Factory

克隆官方仓库并安装依赖：

git clone https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -r requirements.txt

配置模型路径时需指定本地已下载的基座模型（如LLaMA-2-7B），修改configs/model_config.yaml文件：

model_name_or_path: "/path/to/llama-2-7b-hf"

启动微调服务

运行训练脚本前需准备JSON格式的微调数据集，示例命令使用LoRA低秩适配：

python src/train_bash.py \
    --stage sft \
    --do_train \
    --model_name_or_path /path/to/llama-2-7b-hf \
    --dataset_dir data \
    --lora_target q_proj,v_proj \
    --output_dir output

启动Web UI测试服务：

python src/web_demo.py \
    --model_name_or_path /path/to/llama-2-7b-hf \
    --adapter_name_or_path output

功能测试与验证

访问http://localhost:7860进入交互界面，输入测试文本观察生成效果。通过API测试验证服务响应：

curl -X POST "http://localhost:8000/generate" \
    -H "Content-Type: application/json" \
    -d '{"inputs":"Explain quantum computing"}'

性能监控与优化

使用htop监控内存占用，针对Apple芯片启用mps后端加速：

import torch
device = torch.device("mps")

调整batch_size和gradient_accumulation_steps参数平衡显存与训练速度。

常见问题解决

若遇到RuntimeError: CUDA out of memory，需减少per_device_train_batch_size。日志文件默认保存在output/training.log，可通过grep快速定位错误。

通过上述步骤，可在Mac环境下完成从环境配置到服务测试的完整流程。后续可尝试量化部署或自定义数据集进阶优化。