源码地址:https://recognize-anything.github.io/
Abstract
主要内容 RAM 算法:
- 提出了 Recognize Anything Model(RAM),一个强的基础模型用于image tagging,表现出在各种常见类别上的高精度的零样本泛化能力
- RAM 提出了新的image tagging 范式,利用图像文本对训练,而不是手工标注数据
RAM 由四部分组成:
- 通过 自动文本语义解析(automatic text semantic parsing) 图像文本对的文本中提取图像的 tags (annotation-free image tags)
- 初步模型使用自动标注训练。训练策略使用 image caption 和 image tagging 两个任务真值分别监督。
- 数据引擎(data engine) 用于生成额外的标注以及清除不正确的标注
- 使用处理(第三步)处理过后的数据,重新训练模型。然后使用更高质量的数据进行微调。
实验效果:
- 在大量的 benchmark 上测试 RAM 的 image tagging 能力,观察到了强大的零样本泛化能力,超过了 CLIP,BLIP
- RAM 超过了使用监督训练的模型,和 Google tagging API 由相当的能力。