Show-o 开源项目使用教程

Show-o 开源项目使用教程

Show-o [ICLR 2025] Repository for Show-o, One Single Transformer to Unify Multimodal Understanding and Generation. Show-o 项目地址: https://gitcode.com/gh_mirrors/sh/Show-o

1. 项目介绍

Show-o 是一个由 Show Lab 开发的新型统一多模态模型,旨在通过单一转换器实现多模态理解和生成的统一。该模型可以处理图像标注、视觉问答(VQA)、文本到图像生成、文本引导的图像修复和扩展等任务。Show-o 使用自回归注意力和去噪扩散模型来处理文本和图像输入,并生成所需的输出。

2. 项目快速启动

在开始使用 Show-o 前,请确保您的环境中已安装以下依赖:

pip3 install -r requirements.txt

接下来,您需要配置 wandb 账户,以便跟踪和查看推理结果:

wandb login <your wandb keys>

以下是几个快速启动的示例:

多模态理解推理示例

运行以下命令进行多模态理解推理,并在 wandb 上查看结果:

python3 inference_mmu.py config=configs/showo_demo_w_clip_vit_512x512.yaml \
max_new_tokens=100 \
mmu_image_root=./mmu_validation question='请详细描述这幅图像。*** 你认为这幅图像是否异常?'

或者使用以下配置:

python3 inference_mmu.py config=configs/showo_demo_512x512.yaml \
max_new_tokens=100 \
mmu_image_root=./mmu_validation question='请详细描述这幅图像。*** 你认为这幅图像是否异常?'

文本到图像生成推理示例

运行以下命令进行文本到图像生成推理,并在 wandb 上查看结果:

python3 inference_t2i.py config=configs/showo_demo_512x512.yaml \
batch_size=1 validation_prompts_file=validation_prompts/showoprompts.txt \
guidance_scale=5 generation_timesteps=50 \
mode='t2i'

文本引导的图像修复推理示例

运行以下命令进行文本引导的图像修复推理,并在 wandb 上查看结果:

python3 inference_t2i.py config=configs/showo_demo.yaml \
batch_size=1 \
guidance_scale=1.75 generation_timesteps=16 \
mode='inpainting' prompt='一辆蓝色的跑车,流线型的曲线和有色窗户,停在一个繁忙的城市街道上。' \
image_path=./inpainting_validation/bus.jpg inpainting_mask_path=./inpainting_validation/bus_mask.webp

文本引导的图像扩展推理示例

运行以下命令进行文本引导的图像扩展推理,并在 wandb 上查看结果:

python3 inference_t2i.py config=configs/showo_demo.yaml \
batch_size=1 \
guidance_scale=1.75 generation_timesteps=16 \
mode='extrapolation' extra_direction='左 左 左 右 右 右' offset=0 prompt='一个宁静的自然景观,特色是一个清晰的蓝色湖泊,周围是郁郁葱葱的绿色树木。' \
image_path=./inpainting_validation/alpine_lake.jpg

3. 应用案例和最佳实践

  • 多模态理解:Show-o 可以用于理解和描述图像内容,回答关于图像的问题等。
  • 文本到图像生成:利用 Show-o 生成与文本描述相匹配的图像。
  • 图像修复:使用 Show-o 来修复损坏或不完整的图像。
  • 图像扩展:扩展图像的某个部分,以创建新的视觉效果。

4. 典型生态项目

目前,Show-o 的生态项目包括:

  • Hugging Face models and annotations:在 Hugging Face 上提供的 Show-o 检查点。
  • Awesome Unified Multimodal Models:一个关于统一多模态模型的项目集合。

以上是 Show-o 的基本使用教程,希望对您的项目有所帮助。

Show-o [ICLR 2025] Repository for Show-o, One Single Transformer to Unify Multimodal Understanding and Generation. Show-o 项目地址: https://gitcode.com/gh_mirrors/sh/Show-o

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

何柳新Dalton

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值