改进相似文本Logo的自动识别能力
结合对比训练和困难负样本选择,建立了新的基准。
会议:WACV 2023
相关出版物:用于Logo识别的图像文本预训练
Logo识别的挑战
Logo识别是指在图像或视频中识别特定Logo及其位置的任务。它有助于创造安全可靠的购物体验,例如通过识别包含攻击性符号或企业商标的图像。
与其他图像分类问题(如识别猫或狗品种)不同,Logo识别面临独特挑战:Logo类别数量通常要大一个数量级,而且新Logo、商标和符号不断被创建。
在一篇将于下月开始的2023年冬季计算机视觉应用会议(WACV)上发表的论文中,我们解决了零样本Logo识别问题,即在模型训练期间无法访问所有可能类型的Logo。
技术方法
标准解决方案有两个阶段:(i)检测所有可能包含Logo的图像区域;(ii)将检测到的区域与不断发展的Logo原型集进行匹配。匹配过程具有挑战性,特别是对于与其他Logo非常相似或包含大量文本的Logo。
我们的论文有两个主要贡献:首先,我们证明利用图像文本对比预训练(涉及将图像表示与其文本描述对齐)显著缓解了文本密集型Logo匹配的挑战。其次,我们提出了一个度量学习损失函数,可以更好地分离高度相关的Logo类别。
实验结果
在标准开源Logo识别数据集上的实验中,我们将我们的方法与现有最先进技术进行了比较。我们根据召回率(模型能够识别确切Logo类别的次数与总尝试次数的比例)来衡量性能。我们的方法在五个公共Logo数据集上实现了新的最先进水平:
- LogoDet3K测试集零样本召回率提高3.5%
- OpenLogo提高4%
- FlickrLogos-47提高6.5%
- Logos In The Wild提高6.2%
- BelgaLogo提高0.6%
技术细节
对比学习
传统上,Logo识别被视为通用目标检测问题的特定实例。然而,大多数商业目标检测系统假设在训练和推理期间类别集是恒定的。由于新设计专利和商标的注册或在线论坛中新攻击性符号的创建,这一假设在Logo识别中经常被违反。
零样本Logo识别严重依赖于嵌入模型,用于将查询区域与不断发展的裁剪Logo图像集进行匹配。在先前的工作中,某中心的研究人员发现传统的预训练计算机视觉模型在表示文本密集型Logo类别方面表现不佳。他们提出使用单独的文本管道通过光学字符识别(OCR)提取图像中的文本,并使用该文本来增强基于视觉的嵌入。
在最近的一些工作中,研究人员发现图像文本对比训练(一种度量学习)可以帮助视觉嵌入器隐式识别图像中的文本。在对比训练中,模型被输入训练示例对;每对包含两个正例或一个正例和一个负例。模型不仅学习将正例聚集在一起,还将正例推离负例。
困难负样本挖掘
在对比训练中,负例通常是随机选择的。但我们通过从训练数据中挖掘困难负例(其关联文本与不同类别Logo相似的Logo)来进一步改进非常相似Logo的可分离性。例如,"Heinz"是"Heineken"的困难负例,因为它们共享相同的前四个字母。
在训练期间,我们明确将正例与其困难负例配对,以鼓励模型区分具有相似文本的Logo。对比训练和困难负例配对的结合使我们的模型能够在Logo识别中建立新的基准。
实际应用
我们已经使用这种方法在更大的Logo图像集上训练了一个Logo嵌入器。目前部署的使用该嵌入模型的系统用于通过识别产品图像中的可持续性相关Logo来筛选符合气候承诺友好资格的产品供人工审核。同一系统还用于识别包含某些禁止内容或攻击性符号的图像。值得注意的是,我们的系统可以在新的攻击性符号被识别时立即采取行动,而无需对我们的架构进行任何更新。
研究领域:计算机视觉
标签:零样本学习、目标检测、对比学习、WACV
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
3886

被折叠的 条评论
为什么被折叠?



