魔塔社区使用llamafactory微调AI阅卷试题系统

启动 LLaMA-Factory

1. 安装 LLaMA-Factory

执行安装指令

git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e ".[torch,metrics]"

解决依赖冲突

如果遇到依赖冲突,可使用以下命令安装,不安装依赖项:

pip install --no-deps -e .

检查依赖冲突:

pip check

发现 pytorch 版本不匹配,LLaMA-Factory 需要 PyTorch 2.5.1,而当前环境为 2.3.x,退出后更改服务器镜像重登后解决问题。
在这里插入图片描述

2. 启动 LLaMA-Factory WebUI

执行以下命令启动 WebUI:

llamafactory-cli webui

训练 AI 题库

1. 上传数据集

将训练数据上传至 LLaMA-Factory 指定目录。
在这里插入图片描述

2. 修改数据集注册文件

编辑 LLaMA-Factory/data/dataset_info.json,配置数据集信息。
在这里插入图片描述

3. 下载模型(使用千问 1.5B)

from modelscope import snapshot_download
snapshot_download('Qwen/Qwen2.5-1.5B-Instruct',
                  cache_dir="/mnt/workspace/model_data")

4. 配置参数训练

调整训练参数,优化 GPU 资源使用率。
在这里插入图片描述

5. 查询 GPU 资源占用率

pip3 install --upgrade nvitop
nvitop

根据 GPU 内存占用率调整 batch size,建议 GPU 占用率接近 90% 以提高训练速度。例如,24G 显卡可设定 batch size 为 12。
在这里插入图片描述

6. 训练评估

损失函数

观察损失函数曲线,判断模型收敛情况。
在这里插入图片描述

主观评估

在这里插入图片描述
在这里插入图片描述

评估指标

在这里插入图片描述
训练后的模型评估指标如下:

{
    "predict_bleu-4": 53.12,
    "predict_model_preparation_time": 0.0062,
    "predict_rouge-1": 100.0,
    "predict_rouge-2": 46.29,
    "predict_rouge-l": 100.0,
    "predict_runtime": 44.29,
    "predict_samples_per_second": 1.219,
    "predict_steps_per_second": 0.113
}
预测质量指标
  • BLEU-4:53.12(衡量生成文本和参考文本的匹配度)
  • ROUGE-1:100.0(单个词匹配度)
  • ROUGE-2:46.29(双词组匹配度)
  • ROUGE-L:100.0(最长公共子序列匹配度)
推理性能指标
  • 模型准备时间:0.0062 秒
  • 推理时间:44.29 秒
  • 每秒样本数:1.219
  • 每秒推理步骤数:0.113
评估总结
  • 文本生成质量 需要优化,可通过增加训练数据或优化超参数提升。
  • 推理性能 较慢,可调整 batch size 或优化计算资源。

7. 合并导出模型

模型训练完成后,可以进行合并并导出。

测试导出模型的加载情况,确保其可用性。
在这里插入图片描述


可能遇到的问题

1. 训练结果与部署效果不一致

  • 训练时的对话模板与部署时的对话模板不匹配。
  • 需要指定正确的模板,例如:
    vllm serve <model> --chat-template deepseek3.jinja
    

2. 训练效果不理想

可能的原因包括:

  • 模型选择:可能需要更适合的基础模型。
  • 训练轮次:训练次数不足。
  • 训练集质量:数据可能存在噪声或格式问题。

部署 LLaMA-Factory

1. 启动模型服务

vllm serve /mnt/workspace/model_data/Qwen/Qwen2.5-1.5B-Instruct-finish-merge

2. 配置 Open WebUI 进行部署

安装 Open WebUI

pip install open-webui

设置环境变量

export HF_ENDPOINT=https://hf-mirror.com
export ENABLE_OLLAMA_API=False  # 禁用 OLLAMA API
export OPENAI_API_BASE_URL=http://127.0.0.1:8000/v1

启动 Open WebUI

open-webui serve

部署运行效果

成功后,可以在浏览器访问 WebUI 进行交互。
在这里插入图片描述


总结

  1. 安装 LLaMA-Factory,解决 PyTorch 版本冲突。
  2. 训练 AI 题库,上传数据集、下载预训练模型、优化 GPU 使用。
  3. 评估训练结果,分析 BLEU/ROUGE 评分和推理性能。
  4. 部署模型,使用 VLLM 启动服务,配置 Open WebUI 进行交互。
### 如何在魔塔社区微调 Qwen3:8B 大模型 要在魔塔社区 (ModelScope) 上微调 Qwen3:8B 大模型,可以按照以下方法操作: #### 准备工作 为了成功完成微调过程,需先安装必要的依赖项。可以通过运行以下命令来设置环境: ```bash pip install -e .[metrics,modelscope,qwen] pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121 pip install https://github.com/jllllll/bitsandbytes-windows-webui/releases/download/wheels/bitsandbytes-0.41.2.post2-py3-none-win_amd64.whl ``` 这些工具包提供了对 PyTorch 的支持以及其他必需的功能模块[^4]。 #### 下载并加载模型 从 ModelScope 平台获取 Qwen3:8B 模型文件后,在 Python 脚本中通过 `from_pretrained` 方法指定本地路径而非远程仓库名称即可初始化模型及其对应的分词器 tokenizer[^3]。具体实现如下所示: ```python from transformers import AutoTokenizer, AutoModelForCausalLM model_dir = "/path/to/local/model" tokenizer = AutoTokenizer.from_pretrained(model_dir) model = AutoModelForCausalLM.from_pretrained(model_dir) ``` #### 数据准备与处理 对于特定任务的数据集,应将其转换成适合输入给定语言模型的形式。通常这涉及 tokenization 步骤以及可能的其他自定义变换逻辑。确保数据格式匹配所选框架的要求。 #### 微调配置 基于目标应用场景调整超参数设定非常重要。例如学习率、批量大小等都会显著影响最终效果。推荐参考官方文档或者类似项目中的最佳实践案例来进行合理的选择。 #### 开始训练 当一切准备工作完成后便可以直接启动训练流程了。如果是在分布式环境中执行,则还需要额外考虑节点间通信等问题。 --- ### 注意事项 由于此过程中涉及到大量计算资源消耗,请务必确认硬件条件满足需求后再行动;另外也要注意遵循各平台的服务条款规定合法合规地使用相关技术成果[^1]^。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值