Florence2:使用LLM助力你的AI绘图,仅需一个模型搞定提示反推&对象检查&蒙版识别&文字识别&咨询建议多功能一体

部署运行你感兴趣的模型镜像

大家好我是阿道夫!!!

Florence2是一款革命性的AI绘图工具,它将LLM(大型语言模型)的强大功能与AI绘图技术完美结合。本文将介绍Florence2的五大核心功能:提示反推、对象检查、蒙版识别、文字识别及咨询建议,以及如何使用一个模型轻松搞定这些功能,助力您的AI绘图创作。
在这里插入图片描述

在LLM大语言模型快速发展下,视觉大模型已成为主流,能够精准的识别图片信息检查图片对象提取文字等,甚至可以根据输入图像实现代码编程咨询建议物理世界识别等,模拟现实世界物理运动反馈和回应。同时以SD、MJ为首的绘图模型在扩散模型(包括近期 的的DiT架构) 下也得到的快速的发展,模仿垫图一直是绘图过程中重要需求之一。大家常用的提示词反推工具有:ComfyUI-WD14-Tagger,但它并不是非常的精准。今天的主题则是使用微软发布的Florence2视觉大模型集成ComfyUI助力AI绘图。当然它不止提示词反推,还包括:对象检查、蒙版识别、OCR文字识别、文档视觉问题解答等。

Florence-2是一个微软发布的高级视觉基础模型,它采用基于提示的方法来处理广泛的视觉和视觉-语言任务。Florence-2 可以解释简单的文本提示,执行如字幕、目标检测和分割等任务。它利用FLD-5B 数据集训练,包含 5.4 亿个注释跨足 1260 万张图像,以精通多任务学习。该模型的序列到序列架构使其在零样本和微调设置中都表现出色,试验结果证明了Florence-2 是一个具有竞争力的视觉基础模型。

Florence-2具有多版本发布。其中base和base-ft体积小(约400MB)适合低显存用户 ,large和large-fit 体积大(约1G)更精准智能

Florence-2模型ComfyUI体验

首选ComfyUI中利用插件管理器搜索ComfyUI-Florence2, 并点击安装,此插件无需安装任何模型,在首次运行时会自动下载。重启ComfyUI既可开始体验。

• ComfyUI插件:(需要的同学可以自行扫描获取)
请添加图片描述

/ComfyUI/models/LLM/Florence-2-base-ft 目录下。如无法自动下载可以使用git lfs clone下载(切记CD到正确目录):

01. 工作流界面

插件中最终的选项是Task任务选项,一共包含11个任务

  1. region_caption:简单的对象检测,识别图像中的基本元素。对象检测标记。

  2. dense_region_caption:更详细的对象检测,提供更丰富的描述。

  3. region_proposal:纯粹的区域识别,没有语义描述。

  4. caption:对图片进行简单描述,反推提示词。

  5. detailed_caption:提供更详细的图像描述。

  6. more_detailed_caption:进一步增加图像描述的细节。适合适用于图像提示词反推

  7. caption_to_phrase_grounding:将图像描述与短语关联起来。

  8. referring_expression_segmentation:根据指示性表达分割图像。图像预期分隔制作蒙版。

    1. Ocr:识别图像中的文本。
    1. ocr_with_region:结合区域信息的文本识别。
    1. docvqa:文档问答咨询。图像识别建议方案。

01. 对象检测

明确的识别出图中:脸、衣服、花、人物。并提供了对象检测位置描述。dense_region_caption包含更详细的描述,region_proposal不包含描述,但具有更多的对象识别。

在这里插入图片描述

02.提示词反推

都具有图像描述提示词反推描述,而more_detailed_caption则提示语更详细,识别绘图提示词反推,替代ComfyUI-WD14-Taggercaption:

A woman in a red cheongsam standing in a room.

detailed_caption

In this image we can see a woman. In the background there is a wall.

more_detailed_caption

A woman is wearing a red dress with white flowers on it. The woman has dark brown hair and is smiling. There is a mirror behind the woman. 
03. 语义分隔,蒙版制作

caption_to_phrase_grounding仅标记语义识别圈选对象,标记区域。caption_to_phrase_grounding则会圈选并生成蒙版。

在这里插入图片描述

04. 文字识别

Ocr仅识别了文字,ocr_with_region还输出了图像区域标记。不支持中文,应该缺少中文数据的微调。

05. 文档咨询

注意切换模型Florence-2-DocVQA。这属于小模型,当前识别能力还很弱,无法与GPT4O等视觉大模型类比。

Florence-2模型提示词反推实战

本文涉及模型下载地址:(可自行扫描获取)
请添加图片描述

• 麻袋realistic_XL

• 东方审美 | BRairt.SDXLLORA

• 真实皮肤

• HandFineTuning_XL-修手LORA

绘图负向提示词

(nsfw:1.5),(worst quality, low quality:2),(Watermark:1.5),(NSFW:2),ng_deepnegative_v1_75t,EasyNegative,badhandv4,NSFW,(nsfw:1.3),render,childlike,text,signature,(worst quality, low quality, very displeasing, lowres),(interlocked fingers, badly drawn hands and fingers, anatomically incorrect hands),blurry,watermark,

01. 工作流界面

01. 提示词反推实战

反推提示词

(closed mouth:1.5),(indoor),(chinese dress), A woman is standing in a room. She is wearing a red dress with white flowers on it. The woman has dark hair and is smiling. There are flowers on the wall behind the woman.

输入效果

在这里插入图片描述

这里并未使用相同的模型绘图,因此仍存在模型的差异性。选择相似的模型将会更好的解决仿图。

资料软件免费放送

次日同一发放请耐心等待

关于AI绘画技术储备

学好 AI绘画 不论是就业还是做副业赚钱都不错,但要学会 AI绘画 还是要有一个学习规划。最后大家分享一份全套的 AI绘画 学习资料,给那些想学习 AI绘画 的小伙伴们一点帮助!

感兴趣的小伙伴,赠送全套AIGC学习资料和安装工具,包含AI绘画、AI人工智能等前沿科技教程,模型插件,具体看下方。

需要的可以扫描下方优快云官方认证二维码免费领取【保证100%免费】

请添加图片描述

**一、AIGC所有方向的学习路线**

AIGC所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。

在这里插入图片描述

在这里插入图片描述

二、AIGC必备工具

工具都帮大家整理好了,安装就可直接上手!
在这里插入图片描述

三、最新AIGC学习笔记

当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。
在这里插入图片描述
在这里插入图片描述

四、AIGC视频教程合集

观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

在这里插入图片描述

五、实战案例

纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述
这份完整版的学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】
请添加图片描述

您可能感兴趣的与本文相关的镜像

Qwen3-VL-8B

Qwen3-VL-8B

图文对话
Qwen3-VL

Qwen3-VL是迄今为止 Qwen 系列中最强大的视觉-语言模型,这一代在各个方面都进行了全面升级:更优秀的文本理解和生成、更深入的视觉感知和推理、扩展的上下文长度、增强的空间和视频动态理解能力,以及更强的代理交互能力

在无法直接访问 Hugging Face 的情况下,用户可以选择使用国内的镜像站点下载 Florence-2-large 模型。以下是一些常见的镜像网站和操作建议: ### 镜像网站推荐 1. **ModelScope(魔搭)** ModelScope 提供了大量主流模型的镜像下载地址,包括 Hugging Face 上的模型。用户可以直接搜索 `Florence-2-large` 并下载对应的模型文件[^1]。 网站地址:[https://modelscope.cn](https://modelscope.cn) 2. **清华大学开源镜像站** 清华大学开源镜像站支持 Hugging Face 模型的镜像加速下载,用户可以将 Hugging Face 原始模型地址替换为清华大学镜像地址进行下载。 镜像地址:[https://mirrors.tuna.tsinghua.edu.cn/hugging-face](https://mirrors.tuna.tsinghua.edu.cn/hugging-face) 3. **华为云镜像** 华为云提供了 Hugging Face 模型的镜像加速服务,适用于国内用户快速下载模型。 镜像地址:[https://mirrors.huaweicloud.com/repository/model](https://mirrors.huaweicloud.com/repository/model) ### 下载后的操作步骤 - 下载完成后,将模型文件放入 `ComfyUI/models/florence2/large` 目录下[^1]。 - 重启 ComfyUI 服务以确保模型加载生效。 ### 示例命令(使用 Hugging Face CLI 和镜像) 如果使用 Hugging Face CLI 工具,可以通过设置环境变量来指定镜像地址: ```bash # 设置镜像地址 export HF_ENDPOINT=https://hf-mirror.com # 下载模型 huggingface-cli download microsoft/Florence-2-large --local-dir ./Florence-2-large --local-dir-use-symlinks False ``` ### 注意事项 - 在使用镜像网站时,确保模型本与 Hugging Face 上的原始模型一致,以避免兼容性问题。 - 有些镜像网站可能要注册或申请权限,建议提前了解相关规则。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值