【论文阅读】Recognize Anything: A Strong Image Tagging Model

源码地址:https://recognize-anything.github.io/

Abstract

主要内容 RAM 算法:

  1. 提出了 Recognize Anything Model(RAM),一个强的基础模型用于image tagging,表现出在各种常见类别上的高精度的零样本泛化能力
  2. RAM 提出了新的image tagging 范式,利用图像文本对训练,而不是手工标注数据

RAM 由四部分组成:

  1. 通过 自动文本语义解析(automatic text semantic parsing) 图像文本对的文本中提取图像的 tags (annotation-free image tags)
  2. 初步模型使用自动标注训练。训练策略使用 image caption 和 image tagging 两个任务真值分别监督。
  3. 数据引擎(data engine) 用于生成额外的标注以及清除不正确的标注
  4. 使用处理(第三步)处理过后的数据,重新训练模型。然后使用更高质量的数据进行微调。

实验效果:

  1. 在大量的 benchmark 上测试 RAM 的 image tagging 能力,观察到了强大的零样本泛化能力,超过了 CLIP,BLIP
  2. RAM 超过了使用监督训练的模型,和 Google tagging API 由相当的能力。
    在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值