基于Align-Anything框架的文本-图像到文本监督微调(SFT)实战指南-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00654/article/details/148552678

基于Align-Anything框架的文本-图像到文本监督微调(SFT)实战指南

align-anything Align Anything: Training All-modality Model with Feedback 项目地址: https://gitcode.com/gh_mirrors/al/align-anything

前言

在当今多模态人工智能快速发展的时代，如何让模型同时理解文本和图像并生成高质量的文本响应成为了研究热点。Align-Anything框架为解决这一问题提供了强大的工具支持。本文将详细介绍如何使用Align-Anything框架对多模态模型进行监督微调(SFT)，使其在文本-图像到文本任务上表现更优。

技术背景

监督微调(Supervised Fine-Tuning, SFT)是一种常见的模型优化方法，它通过在特定任务的数据集上继续训练预训练模型，使模型适应特定领域或任务。对于多模态模型而言，SFT尤为重要，因为它能帮助模型更好地理解不同模态数据间的关联。

Align-Anything框架专为多模态对齐任务设计，提供了完整的工具链，包括数据处理、模型加载、训练流程等，极大简化了多模态模型的微调过程。

环境准备

在开始之前，请确保满足以下条件：

已安装Align-Anything框架
准备一个文本-图像到文本数据集
下载LLaVA-1.5-7b预训练模型
配备至少70GB内存的GPU设备

注意：虽然本教程使用较大模型，但框架也支持较小模型的微调，未来将提供相关脚本。

核心实现步骤

1. 加载预训练模型

首先需要加载基础的多模态模型。这里我们使用LLaVA-1.5-7b模型，它能同时处理文本和图像输入，并生成文本响应。

from align_anything.models.pretrained_model import load_pretrained_models
from align_anything.utils.multi_process import get_current_device

model, tokenizer, processor = load_pretrained_models(
    "/path/to/llava-1.5-7b-hf",  # 替换为实际模型路径
    model_max_length=4096,
    padding_side='right',
    trust_remote_code=True,
    modality=['image'],
)

# 将模型移至当前设备(GPU或CPU)
model = model.to(get_current_device())

2. 配置优化器

AdamW优化器因其优秀的性能成为深度学习领域的首选。我们设置学习率为1e-5，这是一个对微调任务较为合适的初始值。

from torch.optim import AdamW

optimizer = AdamW(model.parameters(), lr=1e-5)

3. 设置Chat Template

Chat Template是格式化模型输入的重要工具。Align-Anything提供了专门的AA_TI2T模板，专为文本-图像到文本任务设计。

from align_anything.configs.template import ChatTemplate

train_template = ChatTemplate(
    formatter=processor,
    template="AA_TI2T",
)

AA_TI2T模板的核心逻辑是将原始样本中的prompt、response和image转换为模型能理解的对话格式：

用户输入: [图像] + [文本prompt]
助手响应: [文本answer]

4. 准备数据集

使用SupervisedDataset类加载和预处理数据集：

from align_anything.datasets.text_image_to_text import SupervisedDataset

train_dataset = SupervisedDataset(
    path="/path/to/your/dataset",  # 替换为实际数据集路径
    template=train_template,
    tokenizer=tokenizer,
    processor=processor,
    split="train",
    size=1000,  # 本教程限制使用1000个样本
)

5. 创建DataLoader

DataLoader负责批量加载和打乱数据：

from torch.utils.data import DataLoader
from torch.utils.data.sampler import RandomSampler

train_dataloader = DataLoader(
    train_dataset,
    collate_fn=train_dataset.get_collator(),  # 使用数据集特定的collate函数
    sampler=RandomSampler(train_dataset),     # 随机采样
    batch_size=1,                            # 单样本处理
)

6. 训练循环实现

完整的训练流程包括前向传播、损失计算、反向传播和参数更新：

import os
from tqdm import tqdm
from collections import deque
import numpy as np

progress_bar = tqdm(range(3*len(train_dataloader)), desc="Training for 1/3 epochs...")
losses = deque(maxlen=100)
os.makedirs('./output', exist_ok=True)

for epoch in range(3):
    progress_bar.set_description(f"Training for {epoch+1}/3 epochs...")
    for batch in train_dataloader:
        batch.pop('meta_info')
        model.train()
        loss = model(**batch)['loss']
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
        losses.append(loss.item())
        progress_bar.update(1)
        progress_bar.set_postfix(loss=np.mean(losses))

    # 每轮epoch后保存模型
    model.save_pretrained('./output')
    tokenizer.save_pretrained('./output')
    processor.save_pretrained('./output')