单机单卡和单机多卡性能对比(自测,记录)

单机单卡和单机多卡性能对比

本文针对人脸检测项目内容对单机单卡和单机多卡在性能做简单测评
任务:人脸检测
算法:DamoFD
设备: 1 * A100 * 80G , 4 * A100 * 80G
环境:pytorch1.11
数据集:卡通人脸10000张,项目数据验证机123张
模型:单卡和4卡在DamoFD80个epoch的onnx权重
评测指标:Precision,Recall,F1
在这里插入图片描述

在这里插入图片描述

单机单卡在123张数据的指标

在这里插入图片描述

单机多卡在123张数据的指标

在这里插入图片描述

单机单卡在10000张卡通数据的指标

在这里插入图片描述

单机多卡在10000张卡通数据的指标

在这里插入图片描述

结果

从两批数据上我们不难看出单机多卡的性能是优于单机多卡的,事实上也确实如此。博主在对数据测评后发现,单机单卡的误报比较少,但召回低很多,在小目标上比原论文差,对动漫数据的准确率较高。单机多卡准确率略低一点,但对小目标的召回以及卡通数据的泛化性上都优于单机单卡。

<think>嗯,用户想了解如何在本地对Llama Factory模型进行微调。首先,我需要确定用户的需求是什么。他们可能已经有一些大模型的基础知识,但需要具体的步骤指导,尤其是在本地环境配置微调流程上。 首先,用户提到的引用内容中,有单机微调微调的教程,还有具体的命令,比如启动webchat训练命令。需要把这些信息整合起来,给出一个清晰的步骤。 用户的问题涉及环境配置、数据准备、配置文件修改微调执行。我需要分步骤来回答,确保每个部分都详细但不过于复杂。比如,安装虚拟环境依赖库是关键的第一步,可能用户会遇到环境配置的问题,所以需要详细说明。然后,模型下载可能涉及Hugging Face,可能需要指导用户如何正确下载配置模型路径。 数据准备部分,引用4提到了创建数据文件夹,下载数据,格式为txt。需要强调数据格式的正确性,可能用户需要知道如何构造自己的训练数据,比如每行一个样本,或者特定格式的文本。 修改配置文件时,用户可能需要调整模型路径、数据路径训练参数。这里需要提醒用户注意路径的正确性,以及根据硬件调整batch size等参数,避免内存不足的问题。 微调执行部分,引用4中的命令是使用llamafactory-cli来训练,但不同的情况可能需要不同的命令,比如单卡的情况。用户可能不知道如何选择,所以需要区分单卡的启动命令,并提及使用DeepSpeed进行优化,特别是Zero3配置,这在引用2中提到过。 另外,用户可能对微调后的测试应用感兴趣,比如启动API或Web UI进行对话测试,这部分在引用34中有涉及,应该包含在回答中,帮助用户验证微调效果。 还要注意用户可能遇到的常见问题,比如依赖冲突、路径错误、数据格式不符等,可以在注意事项里提醒。同时,引用相关的文献,确保用户知道参考来源。 最后,生成的相关问题需要覆盖环境配置、数据格式、训练、评估方法等,这些都是用户在微调过程中可能遇到的后续问题。需要确保问题有针对性,帮助用户进一步深入学习。</think>### Llama Factory本地微调实战教程 根据引用[1][2][4]的实战教程,本地微调流程可分为以下步骤: #### 一、环境配置 1. 安装虚拟环境 ```bash conda create -n llama_factory python=3.10 conda activate llama_factory ``` 2. 安装核心依赖库 ```bash git clone https://github.com/LLaMA-Factory/LLaMA-Factory.git cd LLaMA-Factory pip install -r requirements.txt ``` #### 二、模型准备 1. 下载基础模型(以LLaMA-3为例) ```bash huggingface-cli download meta-llama/Meta-Llama-3-8B --local-dir ./models/llama3-8b ``` 2. 配置模型路径(修改`configs/model_config.yaml`) ```yaml model_name_or_path: "./models/llama3-8b" ``` #### 三、数据准备 1. 创建数据目录 ```bash mkdir -p data/finetune ``` 2. 准备训练数据(示例格式) ```txt {"text": "<s>用户:如何微调大模型?</s><s>助手:请按以下步骤操作..."} {"text": "<s>用户:训练需要少显存?</s><s>助手:至少需要..."} ``` *建议使用alpaca格式数据集[^4]* #### 四、配置文件修改 修改`configs/train_config.yaml`: ```yaml dataset_name: "finetune" max_seq_length: 2048 per_device_train_batch_size: 2 learning_rate: 2e-5 num_train_epochs: 3 ``` #### 五、启动微调 1. 单卡训练: ```bash llamafactory-cli train \ --model_name_or_path ./models/llama3-8b \ --dataset_path ./data/finetune \ --output_dir ./output ``` 2. 训练(DeepSpeed优化): ```bash deepspeed --num_gpus=2 src/train_bash.py \ --deepspeed configs/ds_config_zero3.json \ --stage sft \ --model_name_or_path ./models/llama3-8b ``` *Zero3配置可有效降低显存占用[^2]* #### 六、结果验证 1. 启动WebUI测试: ```bash llamafactory-cli webui --model_name_or_path ./output ``` 2. 执行API测试: ```bash llamafactory-cli api examples/inference/llama3.yaml ``` §§注意事项§§ 1. 显存需求:7B模型需至少24GB显存,建议使用LoRA微调 2. 数据格式:支持json/jsonl/txt格式,需包含"text"字段 3. 混合精度训练:建议启用`fp16`或`bf16`模式 [^1]: LLaMA Factory单机微调教程 [^2]: 微调与Zero3优化 : 数据准备与训练命令说明
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

致命扼腕

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值