使用AutoMM实现图像-文本语义匹配技术详解-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00026/article/details/148439941

使用AutoMM实现图像-文本语义匹配技术详解

autogluon AutoGluon: AutoML for Image, Text, Time Series, and Tabular Data 项目地址: https://gitcode.com/gh_mirrors/au/autogluon

引言：跨模态语义匹配的重要性

在人工智能领域，视觉与语言是人类理解现实世界的两大关键能力。图像-文本语义匹配技术通过衡量图像和文本之间的视觉语义相似度，在连接视觉与语言方面扮演着至关重要的角色。这项技术已成为跨模态检索、图像描述生成、文本到图像合成以及多模态神经机器翻译等任务的基础。

AutoMM项目简介

AutoMM是一个强大的自动化多模态机器学习框架，能够简化复杂的多模态建模流程。在图像-文本匹配任务中，AutoMM提供了端到端的解决方案，从数据准备到模型训练、评估和部署的全流程支持。

环境准备与数据加载

首先需要安装AutoMM的多模态组件：

!pip install autogluon.multimodal

然后导入必要的库并设置随机种子以保证实验可复现性：

import os
import warnings
import numpy as np
from IPython.display import Image, display

warnings.filterwarnings('ignore')
np.random.seed(123)

Flickr30K数据集介绍

本教程使用Flickr30K数据集进行演示，该数据集包含31,783张日常生活场景的图像，每张图像配有5个描述性文本。我们先下载并加载数据集：

from autogluon.core.utils.loaders import load_pd, load_zip
import pandas as pd

# 下载并解压数据集
download_dir = './ag_automm_tutorial_imgtxt'
zip_file = 'https://automl-mm-bench.s3.amazonaws.com/flickr30k.zip'
load_zip.unzip(zip_file, unzip_dir=download_dir)

# 加载CSV文件
dataset_path = os.path.join(download_dir, 'flickr30k_processed')
train_data = pd.read_csv(f'{dataset_path}/train.csv', index_col=0)
val_data = pd.read_csv(f'{dataset_path}/val.csv', index_col=0)
test_data = pd.read_csv(f'{dataset_path}/test.csv', index_col=0)

数据预处理

由于原始数据中的图像路径是相对的，我们需要将其转换为绝对路径：

def path_expander(path, base_folder):
    path_l = path.split(';')
    return ';'.join([os.path.abspath(os.path.join(base_folder, path)) for path in path_l])

image_col = "image"
text_col = "caption"

train_data[image_col] = train_data[image_col].apply(lambda ele: path_expander(ele, base_folder=dataset_path))
val_data[image_col] = val_data[image_col].apply(lambda ele: path_expander(ele, base_folder=dataset_path))
test_data[image_col] = test_data[image_col].apply(lambda ele: path_expander(ele, base_folder=dataset_path))

模型初始化与零样本评估

初始化预测器

AutoMM为图像-文本匹配任务提供了专门的预测器，基于CLIP模型架构：

from autogluon.multimodal import MultiModalPredictor

predictor = MultiModalPredictor(
    query=text_col,
    response=image_col,
    problem_type="image_text_similarity",
    eval_metric="recall",
)

零样本评估

在微调前，我们可以先评估预训练模型在测试集上的表现：

# 准备测试数据
test_image_data = pd.DataFrame({image_col: test_data[image_col].unique().tolist()})
test_text_data = pd.DataFrame({text_col: test_data[text_col].unique().tolist()})
test_data_with_label = test_data.copy()
test_label_col = "relevance"
test_data_with_label[test_label_col] = [1] * len(test_data)

# 文本到图像检索评估
txt_to_img_scores = predictor.evaluate(
    data=test_data_with_label,
    query_data=test_text_data,
    response_data=test_image_data,
    label=test_label_col,
    cutoffs=[1, 5, 10],
)

# 图像到文本检索评估
img_to_txt_scores = predictor.evaluate(
    data=test_data_with_label,
    query_data=test_image_data,
    response_data=test_text_data,
    label=test_label_col,
    cutoffs=[1, 5, 10],
)

print(f"文本到图像检索得分: {txt_to_img_scores}")
print(f"图像到文本检索得分: {img_to_txt_scores}")

模型微调

虽然CLIP模型已经具备强大的零样本能力，但在特定数据集上微调可以进一步提升性能：

predictor.fit(
    train_data=train_data,
    tuning_data=val_data,
    time_limit=180,  # 快速演示设置为3分钟
)

微调后评估

微调完成后，我们再次评估模型性能：

# 文本到图像检索评估
txt_to_img_scores = predictor.evaluate(
    data=test_data_with_label,
    query_data=test_text_data,
    response_data=test_image_data,
    label=test_label_col,
    cutoffs=[1, 5, 10],
)

# 图像到文本检索评估
img_to_txt_scores = predictor.evaluate(
    data=test_data_with_label,
    query_data=test_image_data,
    response_data=test_text_data,
    label=test_label_col,
    cutoffs=[1, 5, 10],
)

print(f"微调后文本到图像检索得分: {txt_to_img_scores}")
print(f"微调后图像到文本检索得分: {img_to_txt_scores}")

高级功能应用

匹配预测

训练好的模型可以直接预测图像-文本对是否匹配：

pred = predictor.predict(test_data.head(5))
print(pred)

匹配概率预测

也可以获取匹配的概率值：

proba = predictor.predict_proba(test_data.head(5))
print(proba)

特征提取

提取图像和文本的嵌入向量：

# 提取图像特征
image_embeddings = predictor.extract_embedding({image_col: test_image_data[image_col][:5].tolist()})
print(f"图像特征维度: {image_embeddings.shape}")

# 提取文本特征
text_embeddings = predictor.extract_embedding({text_col: test_text_data[text_col][:5].tolist()})
print(f"文本特征维度: {text_embeddings.shape}")

语义搜索

AutoMM提供了高级的语义搜索功能：

from autogluon.multimodal.utils import semantic_search

# 文本到图像搜索
text_query = test_text_data.iloc[[3]]
print("查询文本:", text_query[text_col].values[0])

text_to_image_hits = semantic_search(
    matcher=predictor,
    query_data=text_query,
    response_data=test_image_data,
    top_k=5,
)

# 显示搜索结果
top1_image = test_image_data[image_col][text_to_image_hits[0][0]['response_id']]
pil_img = Image(filename=top1_image)
display(pil_img)

# 图像到文本搜索
image_query = test_image_data.iloc[[6]]
pil_img = Image(filename=image_query[image_col].values[0])
print("查询图像:")
display(pil_img)

image_to_text_hits = semantic_search(
    matcher=predictor,
    query_data=image_query,
    response_data=test_text_data,
    top_k=5,
)

print("匹配文本:", test_text_data[text_col][image_to_text_hits[0][1]['response_id']])