从零开始训练Hugging Face Hub模型的技术指南-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00691/article/details/148391713

从零开始训练Hugging Face Hub模型的技术指南

ml-engineering ml-engineering - 一本在线的机器学习工程书籍，提供大型语言模型和多模态模型训练的方法论，适合从事机器学习模型训练和运维的工程师。项目地址: https://gitcode.com/gh_mirrors/ml/ml-engineering

前言

在机器学习工程实践中，我们经常需要重新训练预训练模型，而不是仅仅进行微调。本文将详细介绍如何利用现有微调示例代码，实现从零开始训练Hugging Face Hub上的模型。

为什么需要从零开始训练？

微调(Fine-tuning)和从零训练(Scratch Training)是两种不同的模型训练策略：

微调：基于预训练权重，在小规模特定数据上继续训练
从零训练：完全从头开始训练模型，不使用任何预训练权重

从零训练在以下场景特别有用：

研究模型架构本身的表现
训练数据与原始预训练数据差异极大
需要完全控制训练过程

技术实现方案

准备工作

首先需要准备一个未经训练的模型初始化版本。以facebook/opt-1.3b模型为例，使用bfloat16精度：

from transformers import AutoConfig, AutoModel, AutoTokenizer
import torch

model_name = "facebook/opt-1.3b"

# 加载模型配置
config = AutoConfig.from_pretrained(model_name)

# 根据配置初始化模型(未训练状态)
model = AutoModel.from_config(config, torch_dtype=torch.bfloat16)

# 加载tokenizer
tokenizer = AutoTokenizer.from_pretrained(model_name)

# 保存初始化模型
save_path = "opt-1.3b-bf16"
model.save_pretrained(save_path)
tokenizer.save_pretrained(save_path)

这段代码会创建一个包含模型初始状态和tokenizer的目录，相当于一个"空白"的预训练模型。

精度选择

根据硬件支持情况，可以选择不同的训练精度：

torch.bfloat16：现代GPU支持，内存占用较少
torch.float16：更广泛支持，但可能数值不稳定
torch.float32：最高精度，内存占用最大

训练执行

准备好初始化模型后，可以使用标准微调脚本进行训练：

python -m torch.distributed.run \
--nproc_per_node=1 --nnode=1 --node_rank=0 \
--master_addr=127.0.0.1 --master_port=9901 \
examples/pytorch/language-modeling/run_clm.py --bf16 \
--seed 42 --model_name_or_path opt-1.3b-bf16 \
--dataset_name wikitext --dataset_config_name wikitext-103-raw-v1 \
--per_device_train_batch_size 12 --per_device_eval_batch_size 12 \
--gradient_accumulation_steps 1 --do_train --do_eval --logging_steps 10 \
--save_steps 1000 --eval_steps 100 --weight_decay 0.1 --num_train_epochs 1 \
--adam_beta1 0.9 --adam_beta2 0.95 --learning_rate 0.0002 --lr_scheduler_type \
linear --warmup_steps 500 --report_to tensorboard --output_dir save_dir

关键参数说明：