4M: 大规模多模态掩码建模项目教程-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00390/article/details/142811861

4M: 大规模多模态掩码建模项目教程

ml-4m 4M: Massively Multimodal Masked Modeling 项目地址: https://gitcode.com/gh_mirrors/ml/ml-4m

1. 项目介绍

4M: 大规模多模态掩码建模 是一个用于训练“任意到任意”基础模型的框架，通过使用标记化和掩码技术，可以扩展到多种不同的模态。该项目由EPFL和Apple联合开发，旨在提供一个可扩展、开源的框架，用于训练能够执行广泛视觉任务、在未见任务和模态上表现良好，并且具有灵活性和可控性的多模态生成模型。

该项目的主要特点包括：

多模态支持：支持多种模态的输入和输出。
可扩展性：通过掩码建模技术，模型可以扩展到多种任务和模态。
开源：提供代码和预训练模型，方便社区使用和改进。

2. 项目快速启动

安装

首先，克隆项目仓库并进入项目根目录：

git clone https://github.com/apple/ml-4m.git
cd ml-4m

创建一个新的conda环境，然后安装项目及其依赖项：

conda create -n fourm python=3.9 -y
conda activate fourm
pip install --upgrade pip  # 启用PEP 660支持
pip install -e .

验证CUDA是否在PyTorch中可用：

# 在Python shell中运行
import torch
print(torch.cuda.is_available())  # 应返回True

快速启动示例

以下是一个快速启动示例，展示如何使用4M模型从RGB输入生成所有模态：

from fourm.demo_4M_sampler import Demo4MSampler

# 从URL加载图像
img_from_url = ...  # 假设这是一个从URL加载图像的函数
sampler = Demo4MSampler(fm='EPFL-VILAB/4M-21_XL').cuda()
img = img_from_url('https://storage.googleapis.com/four_m_site/images/demo_rgb.png')  # 1x3x224x224 ImageNet标准化PyTorch张量

# 生成所有模态
preds = sampler(['rgb@224': img.cuda()], seed=None)
sampler.plot_modalities(preds, save_path=None)