Kolors模型部署指南

原创于 2024-09-23 14:46:01 发布 · 833 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#图像生成 #文生图 #大模型 #算法 #算力 #人工智能 #AIGC

模型构建专栏收录该内容

243 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

一、模型介绍

Kolors 是快手 Kolors 团队基于潜在扩散的大规模文本转图片生成模型。经过数十亿个文本-图片对的训练，Kolors 在视觉质量、复杂语义准确性和中英文文本渲染方面均比开源和闭源模型具有显著优势。此外，Kolors 支持中英文输入，在理解和生成中文特定内容方面表现出色。有关更多详细信息，请参阅此技术报告。

具有以下特点

出色的视觉质量：Kolors 能够生成具有高分辨率和逼真度的图像。例如在生成自然风光、人物肖像等方面，能够呈现出令人惊艳的效果。
复杂语义准确性：能够准确理解和表达复杂的语义信息，避免生成模糊或错误的图像，当处理包含多个元素和关系的文本描述时，仍能生成符合要求的准确图像。
中英文文本渲染能力：无论是中文还是英文的文本输入，都能有效地转化为高质量的图片，满足不同语言用户的需求。

二、部署流程

环境要求：

Python 3.8 或更高版本
PyTorch 1.13.1 或更高版本
Transformers 4.26.1 或更高版本
推荐：CUDA 11.7 或更高版本

(1)存储库克隆和安装依赖项

apt-get install git-lfs
git clone https://github.com/Kwai-Kolors/Kolorscd Kolors

#创建环境
conda create --name kolors python=3.8
conda activate kolors

#依赖项安装
pip install -r requirements.txt
python3 setup.py install

(2)模型下载

huggingface-cli download --resume-download Kwai-Kolors/Kolors --local-dir weights/Kolors

或者

git lfs clone https://huggingface.co/Kwai-Kolors/Kolors weights/Kolors

(3)推理

python3 scripts/sample.py "一张瓢虫的照片，微距，变焦，高质量，电影，拿着一个牌子，写着“可图”"
# The image will be saved to "scripts/outputs/sample_text.jpg"

注意：模型路径需与脚本中的一致

三、网页演示

python3 scripts/sampleui.py

进入webui页面如下：

您可能感兴趣的与本文相关的镜像

Qwen-Image

图片生成

Qwen

Qwen-Image是阿里云通义千问团队于2025年8月发布的亿参数图像生成基础模型，其最大亮点是强大的复杂文本渲染和精确图像编辑能力，能够生成包含多行、段落级中英文文本的高保真图像