Emu3 使用教程-优快云博客

Emu3 使用教程

【免费下载链接】Emu3 Next-Token Prediction is All You Need 项目地址: https://gitcode.com/gh_mirrors/em/Emu3

1. 项目介绍

Emu3 是由 BAAI 开发的一款全新的多模态模型。该模型基于 next-token prediction 技术，将图像、文本和视频统一编码到一个离散空间中，并从零开始训练一个单一的 Transformer 模型。Emu3 在生成和感知任务中都有出色的表现，超越了多个知名的任务特定模型。

2. 项目快速启动

首先，您需要克隆这个仓库并安装必要的包：

git clone https://github.com/baaivision/Emu3.git
cd Emu3
pip install -r requirements.txt

以下是一个使用 Emu3-Gen 进行图像生成的示例代码：

from PIL import Image
from transformers import AutoTokenizer, AutoModel, AutoImageProcessor, AutoModelForCausalLM
from transformers.generation.configuration_utils import GenerationConfig
import torch
from emu3.mllm.processing_emu3 import Emu3Processor

# 模型路径
EMU_HUB = "BAAI/Emu3-Gen"
VQ_HUB = "BAAI/Emu3-VisionTokenizer"

# 准备模型和处理器
model = AutoModelForCausalLM.from_pretrained(
    EMU_HUB,
    device_map="cuda:0",
    torch_dtype=torch.bfloat16,
    attn_implementation="flash_attention_2",
    trust_remote_code=True,
)
tokenizer = AutoTokenizer.from_pretrained(
    EMU_HUB,
    trust_remote_code=True,
    padding_side="left"
)
image_processor = AutoImageProcessor.from_pretrained(
    VQ_HUB,
    trust_remote_code=True
)
image_tokenizer = AutoModel.from_pretrained(
    VQ_HUB,
    device_map="cuda:0",
    trust_remote_code=True
).eval()
processor = Emu3Processor(
    image_processor,
    image_tokenizer,
    tokenizer
)

# 准备输入
POSITIVE_PROMPT = "masterpiece, film grained, best quality."
NEGATIVE_PROMPT = "lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry."
classifier_free_guidance = 3.0
prompt = "a portrait of young girl."
prompt += POSITIVE_PROMPT

kwargs = dict(
    mode='G',
    ratio="1:1",
    image_area=model.config.image_area,
    return_tensors="pt",
    padding="longest",
)

pos_inputs = processor(text=prompt, **kwargs)
neg_inputs = processor(text=NEGATIVE_PROMPT, **kwargs)

# 准备超参数
GENERATION_CONFIG = GenerationConfig(
    use_cache=True,
    eos_token_id=model.config.eos_token_id,
    pad_token_id=model.config.pad_token_id,
    max_new_tokens=40960,
    do_sample=True,
    top_k=2048,
)

h = pos_inputs.image_size[:, 0]
w = pos_inputs.image_size[:, 1]
constrained_fn = processor.build_prefix_constrained_fn(h, w)
logits_processor = LogitsProcessorList([
    UnbatchedClassifierFreeGuidanceLogitsProcessor(
        classifier_free_guidance,
        model,
        unconditional_ids=neg_inputs.input_ids.to("cuda:0"),
    ),
    PrefixConstrainedLogitsProcessor(
        constrained_fn,
        num_beams=1,
    ),
])

# 生成图像
outputs = model.generate(
    pos_inputs.input_ids.to("cuda:0"),
    GENERATION_CONFIG,
    logits_processor=logits_processor,
    attention_mask=pos_inputs.attention_mask.to("cuda:0"),
)

mm_list = processor.decode(outputs[0])
for idx, im in enumerate(mm_list):
    if not isinstance(im, Image.Image):
        continue
    im.save(f"result_{idx}.png")

3. 应用案例和最佳实践

图像生成

使用 Emu3-Gen 模型，您可以简单地通过预测下一个视觉 token 来生成高质量的图像。该模型支持灵活的分辨率和风格。

视觉-语言理解

Emu3-Chat 模型具有强大的视觉-语言理解能力，能够理解物理世界并给出连贯的文本回应。

视频生成

Emu3 模型可以简单地通过预测视频序列中的下一个 token 来生成视频，而不需要像 Sora 这样的视频扩散模型。

4. 典型生态项目

目前 Emu3 的生态项目包括但不限于：

Emu3-Stage1：用于图像生成和感知任务的预训练模型。
Emu3-Chat：用于视觉-语言理解的模型。
Emu3-Gen：用于图像生成的模型。

这些模型都可以在 Hugging Face Model Hub 上找到相应的权重和代码。

【免费下载链接】Emu3 Next-Token Prediction is All You Need 项目地址: https://gitcode.com/gh_mirrors/em/Emu3

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考