零: 项目说明
是这样的一个事情,经过与deepseek的一番讨论和交流,DeepSeek为我设计了一个30天高强度学习计划,重点聚焦弱监督/无监督语义分割在野外场景的应用,结合理论与实践,并最终导向可落地的开源项目。
主要想法是做基于大模型的弱监督语义分割,主要步骤如下:
- 自动生成标注:大模型生成
图像级标签
,边框
,涂鸦
、点标注
等几种弱监督标注类型的标注: - 生成伪标签:采用基于
类激活图(CAM, Class Activation Mapping)
的方法 +CRF后处理
,利用分类网络生成伪标签pseudo - 训练分割模型:将伪标签作为监督信号,训练
U-Net
、DeepLabv3+
等分割网络。
代码在这里:不断改进中:
https://github.com/Tipriest/30Days-for-segmentation
一: 使用grounding-dino model标注地形所在的范围框
1.1 单个正向词汇的标注效果
-
原始图片:
-
给定关键词
lawn
-
grounding-dino模型的标注框
-
sam模型的分割效果
1.2单个正向词汇+单个反向词汇的标注效果
-
原始图片:
-
给定关键词
yellow brick road without curb
-
grounding-dino模型的标注框
-
sam模型的分割效果
1.3 对于相对复杂的地形图片的标注效果
下面的这张图片中,有两个不连通的黄色砖路:
prompt给的是yellow brick road without curb
,使用grounding dino的标注效果如下图所示
可以看到,这里只标注了一个黄色砖路:
使用SAM识别的效果如下所示
如果提示词给的是curb
的话,对于这种复杂一些的图片,效果如下所示:
这是原图像:
这个是标注之后的图像
这个是sam的结果