多模态MLLM都是怎么实现的(12)-Florence-2

 最近一直在打艾尔登法环DLC,疏于更新了,罪过罪过,今天把拉塔恩给过了,也该更新了,停更期间,催更的信息主要是啥时候更新GPU系列的第五篇,不是不更,是刚打完,正好有客户要听Florence-2,我连写slide带详细的讲一下,也就有了这篇文章,GPU系列5马上就更。

      闲言少叙,那么先更一张我打败拉塔恩和米凯拉的照片(极度讨厌米凯拉,白瞎拉塔恩了)

图片

       这把真的闲言少叙了,那么好,开始.....       

       Florence-2之前在这个系列的第10章简单写过,它能干啥,现在分析一下它的一些特点。

•本质:Series to Series, 所以还是NLP的 VLM

•数据集的能力(一般数据集整不了这个活儿)

•模型重点处理空间层次(理解从粗到细的不同层次的细节)和语义粒度(从高层次到细微描述的捕捉)

•训练方式上有一定创新

•Zero Shot和FT都很优秀

首先我们针对传统CV的标准任务,简单说两句:

目标检测

区域卷积神经网络(R-CNN):早期的方法如 R-CNN 系列(R-CNN、Fast R-CNN、Faster R-CNN)通过在图像中生成候选区域,然后使用 CNN 对每个区域进行分类和回归,以确定目标的类别和位置。

单阶段检测器:如 YOLO(You Only Look Once)和 SSD(Single Shot MultiBoxDetector),直接从图像中预测目标的类别和位置,具有较快的检测速度。

图像分割

全卷积网络(FCN):将传统的 CNN 改造为全卷积网络,用于密集像素级别的预测。FCN 用于语义分割,通过将卷积层的输出上采样到原始图像尺寸,实现对每个像素的分类。

U-Net:一种常用于医学图像分割的架构,它结合了下采样和上采样路径,以更精确地恢复空间信息。

 那VLM这东西本身有啥优点呢?

相比传统的单模态模型,VLM多模态模型在处理图像数据时,通常更关注特征的语义一致性,而不是输入的几何尺寸一致性。现代多模态融合技术,如Transformer等架构,也倾向于使用注意力机制来聚合不同模态的特征,这些机制比起传统CV对输入特征的尺寸有较强的鲁棒性。

VLM的弱点就是这些都干不了,展开说一下。

对象检测(Bounding Boxes):

•定位对象:边界框提供了对象在图像中的具体位置和尺寸,这对于后续的分析和处理非常关键。例如,在自动驾驶中,知道行人或其他车辆的准确位置有助于做出驾驶决策。

•计算和管理:边界框简化了许多计算和管理任务,例如在监控中计算目标移动轨迹或在库存管理中统计商品数量。

图像分割(Masks):

•精确的边界:遮罩提供了对象的精确轮廓,这在需要详细了解对象形状和表面特征的任务中非常有用,例如医学图像分析中肿瘤的体积测量。

•像素级分析:遮罩允许对对象的每个像素进行分析和处理,例如颜色、纹理等,这对于精细化操作和高精度需求的应用至关重要。

•用户交互:在某些应用中,边界框和遮罩可以用于用户交互。例如,用户可以点击边界框或遮罩来选择对象,进行进一步的操作,如编辑或分析。

•区域操作:在许多任务中,需要对图像的特定区域进行处理,如图像增强、去噪、特效添加等。边界框和遮罩明确指定了这些操作的目标区域。

 这本来不能干的事,同为VLM的Florence-2为啥就可以了呢?

我们从以下2个部分来解释:

1- 造数据

2-训练方式

其实啥模型有点特点也都是这两点。

首先说造数据,也就是它的dataset,FLD-5B dataset。它造这个数据集的主要原因是现在市面上的dataset不太满足它的训练要求。

•视觉注释的稀缺:现有的视觉数据集,如 ImageNet、COCO 和 Flic

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值