ComfyUI实现文本抠图——AI抠图(ComfyUI_Segment_Anything)

抠图有很多方式,本文记录的是文本方式抠图(Segment_Anything)。

2023年4月曾用过ComfyUI,当时就感慨这个工具和虚幻的蓝图很像,以后肯定是专业人玩的。
2024年我写代码去了,AI做图没太关注,没想到,现在ComfyUI真的变成了工作室必备之物。

comfyui的安装方法当年就写在这里了,不再赘述。
《Windows安装Stable Diffusion ComfyUI及问题解决记录(注意不是Stable Diffusion WebUI)》

如果你要学习的话,建议先用WebUI,然后再学ComfyUI,这样会比较容易理解流程和节点。

1. 下载

注意,下载地址以官网发布为准,这里的数据为2025.01.22官网的下载。

namesizeconfig filemodel file
GroundingDINO_SwinT_OGC694MBdownload linkdownload link
GroundingDINO_SwinB938MBdownload linkdownload link
  • SAM
namesizemodel file
sam_vit_h2.56GBdownload link
sam_vit_l1.25GBdownload link
sam_vit_b375MBdownload link
sam_hq_vit_h2.57GBdownload link
sam_hq_vit_l1.25GBdownload link
sam_hq_vit_b379MBdownload link
mobile_sam39MBdownload link

2. 解压

  • 节点:custom_nodes/comfyui_segment_anything
    在这里插入图片描述

  • 模型:

    • models\bert-base-uncased
      在这里插入图片描述

    • models\grounding-dino
      在这里插入图片描述

    • models\sams
      在这里插入图片描述

3. 工作流

找到segment_anything节点,根据需要拖出来就行
在这里插入图片描述

4. 配置

加载一张图,prompt的部分写glasses或者hand,运行
在这里插入图片描述
在这里插入图片描述

5. 出图

确实选中了所需的
在这里插入图片描述
在这里插入图片描述

参考:
ComfyUI中segment anything2的使用
ComfyUI插件:ComfyUI layer style 节点(四)

### 关于 GroundingDINO 的使用教程 #### 安装与配置过程 为了开始使用 GroundingDINO,需先克隆该项目仓库至本地环境中。命令如下所示: ```bash git clone https://github.com/IDEA-Research/GroundingDINO.git ``` 进入 GroundingDINO 文件夹并创建名为 `weights` 的新目录用于存储模型权重文件[^3]。 接着,在当前目录下安装所需的依赖项。这一步骤通常通过执行位于项目根目录下的 `requirements.txt` 来完成。可以利用 pip 工具来自动化这一流程: ```bash pip install -r requirements.txt ``` #### 启动文件概述 GroundingDINO 项目的启动主要围绕几个核心组件展开。其中,`demo/` 目录包含了演示脚本,比如 `test_ap_on_coco.py` 可供开发者快速上手尝试该框架的功能特性;而 `groundingdino/config/` 下则放置着诸如 `GroundingDINO_SwinT_OGC.py` 这样的配置文件,定义了不同实验设置的具体参数[^1]。 对于想要深入理解或调整算法行为的研究人员来说,熟悉这些配置选项是非常重要的。此外,预训练好的模型权重被保存在 `weights/` 文件夹内,例如 `groundingdino_swint_ogc.pth` 就是一个典型的例子,它承载了经过大量数据集训练后的网络参数信息。 #### 使用指南 一旦完成了上述准备工作之后,就可以着手编写自己的应用逻辑或者直接调用现成的例子来进行功能验证。具体而言,可以通过修改 `demo/test_ap_on_coco.py` 中的内容来自定义输入源以及处理方式,进而实现特定场景下的目标检测任务。 #### 相关研究进展 有关 GroundingDINO 背后的理论基础及其创新之处可以在关联文章中找到详细介绍。这部分内容涵盖了多个方面,包括但不限于如何有效地融合视觉特征与自然语言描述之间的联系等前沿话题[^2]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值