DiffSensei: 将书面故事转成漫画

最新推荐文章于 2025-04-05 15:54:59 发布

原创最新推荐文章于 2025-04-05 15:54:59 发布 · 878 阅读

10 ·

CC 4.0 BY-SA版权

部署运行你感兴趣的模型镜像

简介

DiffSensei 是一个创新的人工智能系统，它能够将书面故事自动转换成漫画。这个系统由北京大学、上海人工智能实验室和南洋理工大学联合研发，结合了扩散模型与大型语言模型，专注于处理漫画创作中的视觉和叙事元素。

功能特点

多样化的分辨率生成

DiffSensei 支持生成不同分辨率的漫画面板，从64到2048像素的边缘大小，为用户提供了广泛的选择。

灵活的角色适应性

用户只需提供一个角色的输入图像，DiffSensei 就能创造出多种不同的角色外观，增加了创作的多样性。

多用途应用

DiffSensei 不仅适用于定制漫画的生成，还能用于创建以真实人物为原型的漫画，为艺术家、出版商和创作者提供了一个强大的工具。

安装与使用

安装步骤

# 创建新的环境并激活
conda create -n diffsensei python=3.11
conda activate diffsensei

# 安装 Pytorch 和相关依赖包
conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia
conda install -c conda-forge diffusers transformers accelerate
pip3 install -U xformers --index-url https://download.pytorch.org/whl/cu121

# 安装其他依赖
pip install -r requirements.txt

# 安装 Gradio 用于演示
pip install gradio-image-prompter

模型下载

从 Hugging Face 下载 DiffSensei 模型，并将其放置在 checkpoints 文件夹中。

使用 Gradio 进行推理

CUDA_VISIBLE_DEVICES=0 \
python -m scripts.demo.gradio \
  --config_path configs/model/diffsensei.yaml \
  --inference_config_path configs/inference/diffsensei.yaml \
  --ckpt_path checkpoints/diffsensei

MangaZero 数据集

由于版权问题，我们不能直接分享图像。相反，我们提供了 MangaDex 上的漫画图像 URL 和我们的 MangaZero 数据集的注释。请从 Hugging Face 下载 MangaZero。

引用

如果您在研究中使用了 DiffSensei，请引用以下文章：

@article{wu2024diffsensei,
  title={DiffSensei: Bridging Multi-Modal LLMs and Diffusion Models for Customized Manga Generation},
  author={Jianzong Wu, Chao Tang, Jingbo Wang, Yanhong Zeng, Xiangtai Li, and Yunhai Tong},
  journal={arXiv preprint arXiv:2412.07589},
  year={2024},
}