ComfyUI图像转提示脚本安装与配置完全指南

最新推荐文章于 2024-10-18 12:05:35 发布

水骊梓Maureen

最新推荐文章于 2024-10-18 12:05:35 发布

阅读量995

点赞数 27

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_01256/article/details/143045327

ComfyUI图像转提示脚本安装与配置完全指南

Comfyui_image2prompt image to prompt by vikhyatk/moondream1 项目地址: https://gitcode.com/gh_mirrors/co/Comfyui_image2prompt

项目基础介绍及编程语言

项目名称： ComfyUI_image2prompt
核心功能： 本项目致力于在ComfyUI平台中实现图像至文本提示的转化能力，便于用户通过上传图片自动生成详细描述性的文字提示。这尤其适用于需要基于视觉内容创建复杂文本指令的场景，如文本生成、AI艺术创作等。
主要编程语言： Python (占比98.8%)，JavaScript (少量，占比1.2%)

关键技术和框架

ComfyUI: 一个自定义UI框架，用于扩展和控制深度学习模型。
wd-swinv2-tagger-v3: 提升人物特征描述精度的模型。
Moondream系列模型 (moondream1, moondream2): 分别擅长详细场景描述和精准简练的场景表达。
其他集成模型：如uform-gen2-qwen-500m, internlm-xcomposer2-vl-7b等，用于高级文本生成和优化。
Hugging Face Models: 作为模型来源，提供多种关键预训练模型。

项目安装与配置步骤

准备工作

环境需求：确保系统中已安装Python 3.6及以上版本，并配置好pip包管理器。
安装ComfyUI: 首先，你需要按照ComfyUI的官方文档安装好ComfyUI本身，这是使用本插件的前提。
Git客户端: 安装Git，以便从GitHub克隆代码库。

安装步骤

步骤1: 克隆项目

打开终端或命令提示符，执行以下命令以克隆项目源代码到本地：

git clone https://github.com/zhongpei/Comfyui_image2prompt.git

步骤2: 下载模型

自动下载: 运行ComfyUI时，项目中的模型应自动下载。若未自动完成，需手动下载。
手动下载:
1. 访问各模型提供的下载链接，分别下载moondream1、moondream2、internlm-xcomposer2-vl-7b、uform-gen2-qwen-500m等模型到ComfyUI/models/image2text目录下。
2. 如需使用国内镜像下载，参考项目文档或通过Hugging Face CLI工具指定本地目录路径下载模型。