相似文本Logo自动识别技术突破

相似文本Logo自动识别技术突破

结合对比训练与困难负样本选择建立新基准

会议:WACV 2023
相关论文:基于图文预训练的Logo识别

Logo识别是指识别特定Logo及其在图像或视频中位置的任务。该技术有助于创建安全可靠的购物体验,例如通过识别包含冒犯性符号或企业商标的图像。

技术挑战

Logo识别面临其他图像分类问题(如识别猫狗品种)所没有的挑战:Logo类别数量通常高出一个数量级,且新Logo、商标和符号不断涌现。在零样本Logo识别场景中,模型训练时无法接触到所有可能的Logo类型。

标准解决方案包含两个阶段:

  1. 检测可能包含Logo的所有图像区域
  2. 将检测区域与不断更新的Logo原型库进行匹配

匹配过程尤其挑战性,特别是对于与其他Logo高度相似或包含大量文本的Logo。

技术创新

本研究提出两大贡献:

  1. 利用图文对比预训练(将图像表示与其文本描述对齐)显著缓解文本密集型Logo匹配的挑战
  2. 提出改进的度量学习损失函数,更好地区分高度相关的Logo类别

在标准开源Logo识别数据集上的实验表明,该方法在五个公共数据集上实现最新技术水平:

  • LogoDet3K测试集零样本召回率提升3.5%
  • OpenLogo提升4%
  • FlickrLogos-47提升6.5%
  • Logos In The Wild提升6.2%
  • BelgaLogo提升0.6%

技术实现细节

对比学习机制

通过挖掘训练数据中的困难负样本(如"Heinz"与"Heineken"共享前四个字母),在训练时显式将正样本与其困难负样本配对,促使模型区分文本相似的Logo。

系统应用

基于该技术训练的Logo嵌入模型已部署于实际系统:

  • 通过识别产品图像中的可持续性相关Logo,为气候承诺友好型产品提供人工审核
  • 识别包含特定违禁内容或冒犯性符号的图像
  • 系统可即时响应新出现的违规符号,无需更新架构

技术架构示意图

(图示说明:实心形状代表学习到的代理向量,空心形状代表图像嵌入向量。带有"Heinz"Logo的图像被吸引到其自身类的代理,同时被推离其他类的代理和困难负样本类的图像嵌入)
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值