简介
DiffSensei 是一个创新的人工智能系统,它能够将书面故事自动转换成漫画。这个系统由北京大学、上海人工智能实验室和南洋理工大学联合研发,结合了扩散模型与大型语言模型,专注于处理漫画创作中的视觉和叙事元素。
功能特点
多样化的分辨率生成
DiffSensei 支持生成不同分辨率的漫画面板,从64到2048像素的边缘大小,为用户提供了广泛的选择。
灵活的角色适应性
用户只需提供一个角色的输入图像,DiffSensei 就能创造出多种不同的角色外观,增加了创作的多样性。
多用途应用
DiffSensei 不仅适用于定制漫画的生成,还能用于创建以真实人物为原型的漫画,为艺术家、出版商和创作者提供了一个强大的工具。
安装与使用
安装步骤
# 创建新的环境并激活
conda create -n diffsensei python=3.11
conda activate diffsensei
# 安装 Pytorch 和相关依赖包
conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia
conda install -c conda-forge diffusers transformers accelerate
pip3 install -U xformers --index-url https://download.pytorch.org/whl/cu121
# 安装其他依赖
pip install -r requirements.txt
# 安装 Gradio 用于演示
pip install gradio-image-prompter模型下载
从 Hugging Face 下载 DiffSensei 模型,并将其放置在 checkpoints 文件夹中。
使用 Gradio 进行推理
CUDA_VISIBLE_DEVICES=0 \
python -m scripts.demo.gradio \
--config_path configs/model/diffsensei.yaml \
--inference_config_path configs/inference/diffsensei.yaml \
--ckpt_path checkpoints/diffsenseiMangaZero 数据集
由于版权问题,我们不能直接分享图像。相反,我们提供了 MangaDex 上的漫画图像 URL 和我们的 MangaZero 数据集的注释。请从 Hugging Face 下载 MangaZero。
引用
如果您在研究中使用了 DiffSensei,请引用以下文章:
@article{wu2024diffsensei,
title={DiffSensei: Bridging Multi-Modal LLMs and Diffusion Models for Customized Manga Generation},
author={Jianzong Wu, Chao Tang, Jingbo Wang, Yanhong Zeng, Xiangtai Li, and Yunhai Tong},
journal={arXiv preprint arXiv:2412.07589},
year={2024},
}结语
DiffSensei 为漫画创作领域带来了革命性的变化,它不仅能够提高创作效率,还能激发新的创意和可能性。我们期待看到艺术家和创作者如何利用这个工具来创作出令人惊叹的漫画作品。


3145

被折叠的 条评论
为什么被折叠?



