相似文本Logo自动识别技术突破
结合对比训练与困难负样本选择建立新基准
会议:WACV 2023
相关论文:基于图文预训练的Logo识别
Logo识别是指识别特定Logo及其在图像或视频中位置的任务。该技术有助于创建安全可靠的购物体验,例如通过识别包含冒犯性符号或企业商标的图像。
技术挑战
Logo识别面临其他图像分类问题(如识别猫狗品种)所没有的挑战:Logo类别数量通常高出一个数量级,且新Logo、商标和符号不断涌现。在零样本Logo识别场景中,模型训练时无法接触到所有可能的Logo类型。
标准解决方案包含两个阶段:
- 检测可能包含Logo的所有图像区域
- 将检测区域与不断更新的Logo原型库进行匹配
匹配过程尤其挑战性,特别是对于与其他Logo高度相似或包含大量文本的Logo。
技术创新
本研究提出两大贡献:
- 利用图文对比预训练(将图像表示与其文本描述对齐)显著缓解文本密集型Logo匹配的挑战
- 提出改进的度量学习损失函数,更好地区分高度相关的Logo类别
在标准开源Logo识别数据集上的实验表明,该方法在五个公共数据集上实现最新技术水平:
- LogoDet3K测试集零样本召回率提升3.5%
- OpenLogo提升4%
- FlickrLogos-47提升6.5%
- Logos In The Wild提升6.2%
- BelgaLogo提升0.6%
技术实现细节
对比学习机制
通过挖掘训练数据中的困难负样本(如"Heinz"与"Heineken"共享前四个字母),在训练时显式将正样本与其困难负样本配对,促使模型区分文本相似的Logo。
系统应用
基于该技术训练的Logo嵌入模型已部署于实际系统:
- 通过识别产品图像中的可持续性相关Logo,为气候承诺友好型产品提供人工审核
- 识别包含特定违禁内容或冒犯性符号的图像
- 系统可即时响应新出现的违规符号,无需更新架构
技术架构示意图
(图示说明:实心形状代表学习到的代理向量,空心形状代表图像嵌入向量。带有"Heinz"Logo的图像被吸引到其自身类的代理,同时被推离其他类的代理和困难负样本类的图像嵌入)
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码

3876

被折叠的 条评论
为什么被折叠?



