最近一直在打艾尔登法环DLC,疏于更新了,罪过罪过,今天把拉塔恩给过了,也该更新了,停更期间,催更的信息主要是啥时候更新GPU系列的第五篇,不是不更,是刚打完,正好有客户要听Florence-2,我连写slide带详细的讲一下,也就有了这篇文章,GPU系列5马上就更。
闲言少叙,那么先更一张我打败拉塔恩和米凯拉的照片(极度讨厌米凯拉,白瞎拉塔恩了)

这把真的闲言少叙了,那么好,开始.....
Florence-2之前在这个系列的第10章简单写过,它能干啥,现在分析一下它的一些特点。
•本质:Series to Series, 所以还是NLP的 VLM
•数据集的能力(一般数据集整不了这个活儿)
•模型重点处理空间层次(理解从粗到细的不同层次的细节)和语义粒度(从高层次到细微描述的捕捉)
•训练方式上有一定创新
•Zero Shot和FT都很优秀
首先我们针对传统CV的标准任务,简单说两句:
目标检测
•区域卷积神经网络(R-CNN):早期的方法如 R-CNN 系列(R-CNN、Fast R-CNN、Faster R-CNN)通过在图像中生成候选区域,然后使用 CNN 对每个区域进行分类和回归,以确定目标的类别和位置。
•单阶段检测器:如 YOLO(You Only Look Once)和 SSD(Single Shot MultiBoxDetector),直接从图像中预测目标的类别和位置,具有较快的检测速度。
图像分割
•全卷积网络(FCN):将传统的 CNN 改造为全卷积网络,用于密集像素级别的预测。FCN 用于语义分割,通过将卷积层的输出上采样到原始图像尺寸,实现对每个像素的分类。
•U-Net:一种常用于医学图像分割的架构,它结合了下采样和上采样路径,以更精确地恢复空间信息。
那VLM这东西本身有啥优点呢?
相比传统的单模态模型,VLM多模态模型在处理图像数据时,通常更关注特征的语义一致性,而不是输入的几何尺寸一致性。现代多模态融合技术,如Transformer等架构,也倾向于使用注意力机制来聚合不同模态的特征,这些机制比起传统CV对输入特征的尺寸有较强的鲁棒性。
VLM的弱点就是这些都干不了,展开说一下。
对象检测(Bounding Boxes):
•定位对象:边界框提供了对象在图像中的具体位置和尺寸,这对于后续的分析和处理非常关键。例如,在自动驾驶中,知道行人或其他车辆的准确位置有助于做出驾驶决策。
•计算和管理:边界框简化了许多计算和管理任务,例如在监控中计算目标移动轨迹或在库存管理中统计商品数量。
图像分割(Masks):
•精确的边界:遮罩提供了对象的精确轮廓,这在需要详细了解对象形状和表面特征的任务中非常有用,例如医学图像分析中肿瘤的体积测量。
•像素级分析:遮罩允许对对象的每个像素进行分析和处理,例如颜色、纹理等,这对于精细化操作和高精度需求的应用至关重要。
•用户交互:在某些应用中,边界框和遮罩可以用于用户交互。例如,用户可以点击边界框或遮罩来选择对象,进行进一步的操作,如编辑或分析。
•区域操作:在许多任务中,需要对图像的特定区域进行处理,如图像增强、去噪、特效添加等。边界框和遮罩明确指定了这些操作的目标区域。
这本来不能干的事,同为VLM的Florence-2为啥就可以了呢?
我们从以下2个部分来解释:
1- 造数据
2-训练方式
其实啥模型有点特点也都是这两点。
首先说造数据,也就是它的dataset,FLD-5B dataset。它造这个数据集的主要原因是现在市面上的dataset不太满足它的训练要求。
•视觉注释的稀缺:现有的视觉数据集,如 ImageNet、COCO 和 Flic

最低0.47元/天 解锁文章
769

被折叠的 条评论
为什么被折叠?



