入门指南：如何微调视觉语言模型（VLM）实现特定任务

最新推荐文章于 2025-10-13 14:32:28 发布

原创

最新推荐文章于 2025-10-13 14:32:28 发布 · 1k 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#语言模型 #人工智能 #自然语言处理

作者：SpaderMan

原文链接：https://spader-ai.com/blog/2025-05-15-vlm-ft-tutorial

视觉语言模型（Vision-Language Models, VLMs）是近年来多模态人工智能领域的热门研究方向。这类模型能够同时处理视觉（如图像或视频）与语言信息，广泛应用于图像问答、图文生成、图文检索等任务。随着开源模型的发展，普通开发者也能通过微调技术将预训练模型快速适配特定领域需求。

本教程以电商图文数据为例，通过微调 Qwen2.5-VL-3B-Instruct 模型，让模型从通用视觉理解转变为专注于商品识别和描述的能力，实现对商品图片的多级分类与产品描述生成。Qwen2.5-VL-3B-Instruct 是一款体积小、推理效率高、资源消耗低的小型视觉语言模型，特别适合在中小规模场景中快速部署和落地应用，可显著降低计算与成本开销。

微调前的视觉语言模型虽然可以对图像进行一定的泛化理解，但往往只能输出较为模糊、通用的描述。通过本次微调，我们的目标是让模型能够准确识别电商图片中的商品类别，并生成更符合平台风格的精细化产品描述，从而为电商系统自动补全结构化商品信息。

环境准备

请确保你的开发环境已安装以下依赖：

pip install torch torchvision transformers datasets accelerate bitsandbytes trl peft qwen-vl-utils flash-attn scikit-learn

此外，你需要具备一块支持 CUDA 的 GPU，本教程是在单卡 A100 40G 完成的，如需复刻此测试，可联系 Spader.AI 申请 A100 测试资源。

实操步骤：微调 VLM 模型以实现图像产品识别与产品描述生成任务

步骤一：加载与划分数据集

本教程使用的数据集 deepfashion-multimodal 包含多个电商商品图像，以及对应的多层级分类标签与详细商品描述文本字段。这些数据将作为训练模型的图文对齐样本，帮助模型学习如何识别商品类别并生成贴合的文本内容。

from datasets import load_dataset
from sklearn.model_selection import train_test_split

# 从 Hugging Face 加载 DeepFashion-Multimodal 数据集，包含图像 + 分类 + 描述
dataset_id = "Marqo/deepfashion-multimodal"
dataset = load_dataset(dataset_id)
data = dataset["data"]

# 按 80/10/10 比例划分训练、验证、测试集
train_valid_test = data.train_test_split(test_size=0.2, seed=42)
valid_test = train_valid_test["test"].train_test_split(test_size=0.5, seed=42)
train = train_valid_test["train"]
valid = valid_test["train"]
test = valid_test["test"]

该数据集中的每个样本包含：

一张商品图像
两层分类标签：category1 和 category2
一段自然语言商品描述 text

这些字段将用于训练模型识别商品类型并生成结构化描述。

步骤二：构造多模态对话格式输入

system_message = "You are a fashion product expert assistant who excels at identifying product types from images and generating concise descriptions."
prompt = "What is this product?"

def format_data(sample):
    generation = f"{
     
     samp