Florence: A New Foundation Model for Computer Vision

最新推荐文章于 2025-07-20 14:16:10 发布

原创

最新推荐文章于 2025-07-20 14:16:10 发布 · 1.1k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #人工智能 #深度学习

Florence:计算机视觉的一个新的基础模型

基础模型：

基础模型的术语首次被引入指的是任何从大规模数据中训练的模型，这些模型能够被适应 (例如微调)到广泛的下游任务。由于其令人印象深刻的性能和泛化能力，基础模型变得很有前途。

由于视觉理解的多样性，我们将计算机视觉的基础模型重新定义为一个预训练模型及其适配器，用于解决这个时空模态空间中的所有视觉任务，具有可迁移性，如零/少样本学习和完全微调等。

一、创新点

现有的视觉基础模型，如CLIP、ALIGN等，主要侧重于将图像和文本映射到一种跨模态的共享表征。

Florence则将表征进行了拓展，不仅拥有从粗略（场景）到精细（对象）的表征能力，还将视觉能力从静态（图像）扩展到动态（视频），从RGB图像扩展到多模态（文字、深度信息）。

通过整合图像-文本数据的通用视觉语言表示能力，Florence可以轻松适用于各种计算机视觉任务，如分类、目标检测、VQA、看图说话、视频检索和动作识别，在多种类型的迁移学习中均表现出色。

二、方法

1. 数据集的选取

利用互联网上公开的大量图像-文本数据，微软构建

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

pinkshell_1314

关注关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

《向量数据库指南》——Florence任务适配模型：多阶段注意力引领目标检测新风尚！

实战AI智能体

12-03

184

例如，它可以同时检测像公交车这样的大型物体，像汽车这样的中型物体，以及像街景中的交通标志这样的小型物体。在我们的街景中，SE可能会强调车辆检测任务中的汽车层次，或人物识别任务中的面部特征层次。例如，当寻找行人时，它可能会关注人行道区域，当检测车辆时，它可能会关注道路区域。例如，它可以将图像分类为预定义的类别，或查找与给定文本描述相匹配的图像。该适配器支持细粒度的目标检测和分割任务，允许模型对图像中的内容进行分类，并定位和勾勒特定对象。中间的街区可能会捕捉到单独的汽车和行人。

Milvus×Florence：一文读懂如何构建多任务视觉模型

ZILLIZ

11-26

1466

近两年来多任务学习（Multi-task learning）正取代传统的单任务学习（single-task learning），逐渐成为人工智能领域的主流研究方向。其原因在于，多任务学习可以让我们以最少的人力投入，获得尽可能多的AI能力。比如ChatGPT，就是一种基于多任务学习的自然语言生成模型。通过海量的数据训练，以及针对特定任务的模型微调，ChatGPT可以拥有极高的性能以及广泛的通用性。这...

参与评论您还未登录，请先登录后发表或查看评论

多模态变体—Florence：微软的视觉语言模型

Azperk的博客

02-27

1419

Florence 论文提出了该模型的核心技术。大规模数据训练：基于超过 9 亿个图像-文本对训练，使其在多种任务中具备强泛化能力。多任务学习：支持图像分类、目标检测、图像-文本检索、语义分割等任务。对比学习 + Transformer 结构：利用对比学习增强跨模态关联，并结合 Transformer 进行高效建模。可扩展性强：Florence 可以适应不同任务需求，无需为每个任务训练单独的模型。

横扫40+个SOTA！22位华人共同打造佛罗伦萨模型，一统图像视频文本，含9亿图像-文本对...

机器学习算法与Python学习

11-25

750

点击机器学习算法与Python学习，选择加星标精彩内容不迷路新智元报道近日，微软正式发布了一个新的计算机视觉基础模型Florence（佛罗伦萨），要用一个模型一统多模态天下！F...

【大模型开发】Florence多模态大模型概述

人工智能(AI)技术，大模型技术，深度学习，机器学习，计算机视觉，AI工具实践应用等分享

03-18

1244

Florence 是微软推出的一款强大的多模态大模型，旨在通过图像和文本的对齐来进行跨模态学习，适用于一系列视觉和语言任务。Florence采用了先进的深度学习架构，尤其注重跨模态的理解与推理能力，在图像理解、图像生成、视觉问答等领域具有广泛应用。

florence2模型手动下载

03-10

访问微软研究院官网（如 [Microsoft Research Florence Project](https://www.microsoft.com/en-us/research/project/florence/)）或相关论文（如论文 *"Florence: A New Foundation Model for Computer Vision"*）...

[非卷积5D] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

江南蜡笔小新

04-06

6432

不使用3D建模，使用静态图片进行训练，用(非卷积)深度网络表示场景的5D连续体表示，再通过ray marching进行渲染。 paper:《NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis》 NeRF: Representing Scenes as Neural Radiance Fields ...

9亿训练集、通用CV任务，微软打造Florence模型打破分类、检索等多项SOTA

weixin_36896856的博客

11-26

294

点击上方“AI遇见机器学习”，选择“星标”公众号重磅干货，第一时间送达来自：机器之心来自微软的研究者另辟蹊径，提出了一种新的计算机视觉基础模型 Florence。在广泛的视觉和视觉 -...

微软全新开源视觉语言模型！能够执行超过10种不同的视觉任务，检测、分割、识别一切图片

m0_59235245的博客

11-19

1222

Florence-2：微软全新开源视觉模型！当遇到如下场景，我们希望有一个AI模型能马上给出答案：上传一张超市货架的照片，让其精准找出牛奶的所在位置。上传一张公园里的照片，让模型给该图像起一个对应的标题。上传一张果园果树的照片，让模型解释一下该果树上有多少可摘的水果。上述不同的视觉任务的理解需要大模型的支持，最近Microsoft 推出了多模态视觉语言模型（VLM）Florence-2，该模型能够执行超过10种不同的视觉任务，包括图像字幕生成、目标检测、图像区域关联和分割等。

Florence-2模型：开启统一视觉基础模型的新篇章

寻道AI，探索AI无限可能！

07-10

2909

Florence-2是由微软Azure AI团队开发的一款多功能、统一的视觉模型。它通过统一的提示处理不同的视觉任务，表现出色且优于许多大型模型。Florence-2的设计理念是将文本提示作为任务指令，并以文本形式生成理想的结果，无论是字幕、对象检测、基础还是分割。

Florence2:使用LLM助力你的AI绘图，仅需一个模型搞定提示反推&对象检查&蒙版识别&文字识别&咨询建议多功能一体

阿道夫的博客

08-01

5431

大家好我是阿道夫！！！Florence2是一款革命性的AI绘图工具，它将LLM（大型语言模型）的强大功能与AI绘图技术完美结合。本文将介绍Florence2的五大核心功能：提示反推、对象检查、蒙版识别、文字识别及咨询建议，以及如何使用一个模型轻松搞定这些功能，助力您的AI绘图创作。在LLM大语言模型快速发展下，视觉大模型已成为主流，能够精准的等，甚至可以根据输入图像实现等，模拟现实世界物理运动反馈和回应。同时以SD、MJ为首的绘图模型在下也得到的快速的发展，模仿垫图一直是绘图过程中重要需求之一。

【大模型开发】Florence多模态大模型详解与扩展

人工智能(AI)技术，大模型技术，深度学习，机器学习，计算机视觉，AI工具实践应用等分享

03-18

726

Florence作为一款领先的多模态大模型，在图像-文本理解、图像生成、视觉问答等任务中展示了巨大的潜力。通过其强大的Transformer架构和跨模态对齐机制，Florence为多模态学习开辟了新的方向。尽管如此，Florence仍面临着诸如计算效率、长文本理解、多语言支持等挑战，未来需要在这些方向上进行进一步的改进和创新。随着技术的不断发展和数据集的扩展，Florence有望成为更广泛应用的多模态学习模型，在图像搜索、自动标注、跨模态推理等领域发挥更大的作用。

Florence-2视觉语言模型简明教程

新缸中之脑

10-22

4156

Florence-2 由微软于 2024 年 6 月发布。它旨在在单个模型中执行多项视觉任务。它是一个开源模型，在 Hugging Face 上根据宽松的 MIT 许可证提供。

Florence2-通用表征完成多种视觉任务的视觉基础模型

最新发布

qq_38384924的博客

07-20

1253

Florence-2 是由微软于 2024 年 6 月发布的开源模型，目的是使用通用的表征完成一系列复杂任务，如QA问答、描述、检测、分割、OCR等。Florence-2-base和large模型的参数量分别为 0.23B和0.77B，参数量虽小，但实现了SOTA性能。数据集：FLD-5B，包含 1.26 亿张图像的 54 亿条全面的视觉标注。在计算机视觉当中，希望能够实现通用的表征来完成一系列复杂的任务。比如说QA问答任务、描述任务、检测任务、分割任务、OCR任务等等。

Grounding DINO 与 Florence-2：视觉语言模型的双星闪耀

2401_85343303的博客

11-25

2673

更注重结合文本和图像信息进行目标检测和定位，通过特征增强和跨模态解码实现这一点。Florence-2则通过多任务提示和Transformer架构处理多种视觉任务，生成详细的图像描述和对象定位信息，适用于更广泛的任务场景。两者的主要区别在于输入处理方式、特征融合方法和输出内容的多样性。Grounding DINO集中于目标检测和定位，而Florence-2则提供了更为全面的视觉任务解决方案。在计算机视觉与自然语言处理融合的道路上，和Florence-2都是里程碑式的模型。

多模态：Florence2论文详解

WiSirius的博客

09-29

2324

Florence-2已经放出一段时间了，是一种新型的计算机视觉基础模型的统一、基于提示表征适用各种视觉任务或视觉语言任务。Florence-2设计是根据文本提示作为任务指令并以文本形式生成描述的结果，无论是描述、目标检测、grounding还是分割。最近在尝试用florence-2用于自己的任务，写个博客详细了解下florence2的具体结构和策略。多模态的出现打通了NLP和CV之间的壁垒，，先进模型展现出了对跨领域和任务的广泛知识的适应能力，只需简单的指令即可。

【重磅消息】微软开源了自家的Florence-2，处理各种视觉任务的统一模型

weixin_41446370的博客

06-21

7050

总之，Florence-2 是一个开创性的视觉基础模型，展示了多任务学习以及文本和视觉信息融合的巨大潜力。它为各种任务提供了高效的解决方案，而无需进行大量的微调。该模型能够处理从图像级理解到细粒度视觉语义配准等各种任务，标志着向统一视觉基础迈出了重要一步。Florence-2 的架构体现了序列到序列学习的威力，为综合表征学习树立了新的标准。展望未来，Florence-2 为未来的视觉基础模型铺平了道路。它的成功强调了在训练中考虑不同任务和粒度水平的重要性，从而有望建立适应性更强、更稳健的机器学习模型。

如何使用Florence-2来做计算机视觉任务

AI公园

08-13

2430

点击上方“AI公园”，关注公众号，选择加“星标“或“置顶”作者：Ajay Kumar Reddy编译：ronghuaiyang导读在这篇指南中，我们将深入了解这款由微软发布的名为Florence-2的模型，它旨在解决多种不同的视觉任务。引言原始Transformer的引入为当前的大型语言模型铺平了道路。同样，在引入变换器模型之后，视觉变换器（ViT）也被提出。就像擅长理解文本和根据响应生成文本的变...

【计算机视觉】Vision and Language Pre-Trained Models算法介绍合集（二）

wzk4869的博客

09-17

894

【计算机视觉】Vision and Language Pre-Trained Models算法介绍合集（二）