JoyCaptionAlpha是基于LLM(大型语言模型)技术开发的图像反推模型,能够根据用户设置的参数输出具有丰富细节的图像描述提示语。Joy能够生产详细且明确的图像描述信息,高度还原参考图像信息内容,而且与flux模型十分适配,可以说是目前最优秀的提示词反推模型。2024年10月,模型版本已更新至JoyCaptionAlpha Two,我们只需要按照更新后的版本JOY2进行安装(注意不要下错版本)。
项目地址:GitHub - EvilBT/ComfyUI_SLK_joy_caption_two: ComfyUI Node
1 安装方法
(1)打开管理器,搜索“ComfyUI_SLK_joy_caption_two”,点击“安装”,重启comfyUI即可。(注意:本地环境transformers版本需>=4.44.2)

2)cmd方式安装
../comfyui/custom_nodes文件夹地址栏输入cmd ,在弹出的命令行输入:
git clone https://github.com/EvilBT/ComfyUI_SLK_joy_caption_two.git
2 模型文件安装
2.1 google/siglip-so400m-patch14-384模型
模型地址:
google/siglip-so400m-patch14-384 · HF Mirror

需要将该网页下的内容文件全部下载,并安装至文件夹../ComfyUI/models/clip/siglip-so400m-patch14-384(如目录内无此文件夹,需自行新建并重命名)

2.2 Llama3.1-8B-Instruct 模型下载
Llama3.1-8B-Instruct模型分为bnb-4bit精简版和8B原版,根据电脑配置情况下载其中一个即可,下载链接和安装位置分别为:
(1)unsloth/Meta-Llama-3.1-8B-Instruct-bnb-4bit(精简版)
下载链接:unsloth/Meta-Llama-3.1-8B-Instruct-bnb-4bit · HF Mirror

将该页面所有文件下载,放置文件夹位置
..\models\LLM\Meta-Llama-3.1-8B-Instruct-bnb-4bit

(2)unsloth/Meta-Llama-3.1-8B-Instruct(原版)
下载链接:unsloth/Meta-Llama-3.1-8B-Instruct at main

将该页面所有文件下载,放置文件夹位置
..\models\LLM\Meta-Llama-3.1-8B-Instruct
2.3 joy-caption-alpha-two模型
下载链接:fancyfeast/joy-caption-alpha-two at main

将该页面所有文件下载,放置文件夹位置../models/Joy_caption_two

3 核心节点
JoyCaptionAlpha Two的核心节点是“Joy Caption Two”(JOY2),“Joy Caption Two Advanced”(JOY2高级)以及配套使用的JOY模型加载器。
新建节点路径:新建节点→SLK→LLM→Joy Caption Two

3.1 Joy Caption Two节点参数:
(1)caption_type:提示词模版;
Descriptive: 以正式的语气描述提示词
Descriptive (Informal) :以随意的语气描述提示词
Training Prompt: 特定的提示词
MidJourney MidJourney:风格的提示
Booru tag list :Booru标签风格提示词
Booru-like tag list :类似Booru标签风格的提示词
Art Critic:以艺术家视角描写提示词,包括构图、风格、象征意义、色彩、光线及艺术流派等信息
Product Listing:列表风格的提示词
Social Media Post:社交媒体风格的提示词
(2)caption_length:提示词的输出长度
3.2 Joy Caption Two Advanced节点参数

extra_options额外的选项
temperature 较高的数值会使分布更均匀,增加提示词的随机性。较低的数值使分布更集中,减少随机性,更倾向于选择概率高的提示词
4 使用方法
图像信息通过“加载图像”节点加载,再连接joy节点进行反推,最后向clip编码器输出提示词;joy节点没有内置模型选择,需要在节点前新建节点“加载joycaption”选择模型。

Joy_caption:显存占用很大,8B模型占用显存预计20G左右,16G显存显卡无法使用,普通配置的电脑还是选址4B模型即可。


附件:comfyUI基础整合包,包含秋叶版绘世启动器及comfyui官方版共两个版本,适合Windows系统使用。网盘内压缩文件解压密码VX-huaqs123,为防止下载失败,可先转存再下载。软件均为整合包形式,无需安装,下载后打开文件夹,点击运行图标即可使用。
comfyUI整合包网盘链接:https://pan.quark.cn/s/f445b7325b47
本节内容所涉及模型网盘链接:https://pan.quark.cn/s/8c96f5233bbf
欢迎正在学习comfyui等ai技术的伙伴VX加 huaqs123 进入学习小组。在这里大家共同学习comfyui的基础知识、最新模型与工作流、行业前沿信息等,也可以讨论comfyui商业落地的思路与方向。 欢迎感兴趣的小伙伴,群共享资料会分享博主自用的comfyui整合包(已安装超全节点与必备模型)、基础学习资料、工作流等资源……

致敬每一位在路上的学习者,你我共勉!Ai技术发展迅速,学习comfyUI是紧跟时代的第一步,促进商业落地并创造价值是我们学习的最终目标。
——画青山Ai学习专栏———————————————————————————————
零基础学Webui:
https://blog.youkuaiyun.com/vip_zgx888/category_13020854.html
Comfyui基础学习与实操:
https://blog.youkuaiyun.com/vip_zgx888/category_13006170.html
comfyui功能精进与探索:
https://blog.youkuaiyun.com/vip_zgx888/category_13005478.html
系列专栏持续更新中,欢迎订阅关注,共同学习,共同进步!
————————————————————————————————————

被折叠的 条评论
为什么被折叠?



