AutoMM 持续训练技术详解：从模型微调到知识迁移-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00313/article/details/148419412

AutoMM 持续训练技术详解：从模型微调到知识迁移

autogluon AutoGluon: AutoML for Image, Text, Time Series, and Tabular Data 项目地址: https://gitcode.com/gh_mirrors/au/autogluon

什么是持续训练

持续训练（Continuous Training）是机器学习中一种重要的模型优化策略，它允许模型在已有知识基础上不断精进。与传统的"训练-部署"模式不同，持续训练使模型能够：

利用新增数据提升性能
适应数据分布的变化
将已有知识迁移到新任务
节省计算资源

环境准备

在开始之前，我们需要准备一个情感分析数据集作为示例。这里使用斯坦福情感树库(SST)，这是一个经典的电影评论情感分类数据集，包含正面(1)和负面(0)两类标签。

from autogluon.core.utils.loaders import load_pd

# 加载数据集
train_data = load_pd.load("https://autogluon-text.s3-accelerate.amazonaws.com/glue/sst/train.parquet")
test_data = load_pd.load("https://autogluon-text.s3-accelerate.amazonaws.com/glue/sst/dev.parquet")

# 采样1000条数据用于演示
subsample_size = 1000  
train_data_1 = train_data.sample(n=subsample_size, random_state=0)

使用场景一：扩展训练数据或训练时间

1.1 初始模型训练

我们先训练一个基础模型，设置1分钟的时间限制用于演示：

from autogluon.multimodal import MultiModalPredictor
import uuid

model_path = f"./tmp/{uuid.uuid4().hex}-automm_sst"
predictor = MultiModalPredictor(label="label", eval_metric="acc", path=model_path)
predictor.fit(train_data_1, time_limit=60)

1.2 评估模型性能

test_score = predictor.evaluate(test_data)
print(f"测试集准确率: {test_score}")

1.3 继续训练

如果模型表现未达预期，我们可以：

延长训练时间：使用相同数据继续训练
增加训练数据：合并新数据后继续训练

# 加载已训练模型
predictor_2 = MultiModalPredictor.load(model_path)

# 准备新增数据
train_data_2 = train_data.drop(train_data_1.index).sample(n=subsample_size, random_state=0)

# 继续训练
predictor_2.fit(train_data_2, time_limit=60)

使用场景二：从检查点恢复训练

当训练意外中断时，AutoMM会自动保存last.ckpt检查点文件。恢复训练只需：

predictor_resume = MultiModalPredictor.load(path=model_path, resume=True)
predictor_resume.fit(train_data, time_limit=60)

使用场景三：模型迁移学习

3.1 导出模型权重

dump_model_path = f"./tmp/{uuid.uuid4().hex}-automm_sst"
predictor.dump_model(save_path=dump_model_path)

3.2 迁移到新任务

这里我们演示将情感分类模型迁移到语义相似度计算任务：

# 加载STS语义相似度数据集
sts_train_data = load_pd.load("https://autogluon-text.s3-accelerate.amazonaws.com/glue/sts/train.parquet")[
    ["sentence1", "sentence2", "score"]
]

# 初始化新预测器
sts_model_path = f"./tmp/{uuid.uuid4().hex}-automm_sts"
predictor_sts = MultiModalPredictor(label="score", path=sts_model_path)

# 使用预训练权重
predictor_sts.fit(
    sts_train_data, 
    hyperparameters={"model.hf_text.checkpoint_name": f"{dump_model_path}/hf_text"},
    time_limit=30
)