系列论文研读目录
例如:
文章目录
摘要
在过去的几十年中,在电子商务应用的图像搜索领域中取得了显著的进步.传统的图像到图像的检索模型只关注图像的纹理等细节,往往忽略了图像中包含的有用的语义信息。结果,检索到的产品可能拥有相似的图像细节,但不能满足用户的搜索目标。此外,对包含多个图像的产品使用图像到图像检索模型导致显著的在线产品特征存储开销和复杂的映射实现。在本文中,我们报告了所提出的多模态项目嵌入模型(MIEM)的设计和部署,以解决这些限制。它能够利用关于产品的文本信息和多个图像来构造有意义的产品特征。MIEM利用图像的语义信息,有效地补充了图像检索过程,提高了检索结果的整体准确性。MIEM已成为Shopee图片搜索平台不可或缺的一部分。自2023年3月上线以来,Shopee电商平台上的图片搜索功能,实现了单用户点击量9.90%的显著提升,单用户订单量4.23%的大幅提升。
引言
-
现代电子商务平台上的图片搜索功能已成为用户无需输入关键字即可找到所需产品的便捷高效方式。当用户上传图片时,该功能会自动识别图片中的商品,并在给定的电子商务平台上返回相关产品。此功能不仅为用户节省了时间和精力,还增强了他们的购物体验。图像搜索功能通常依赖于图像嵌入建模(奇科2021)来从图像中提取特征。基于这些特征,K-最近邻(KNN)聚类(Fix and Hodges 1989)通常用于识别数据库中的相似图像。
-
然而,这种单一模式的方法有两个主要的局限性。首先,它过分强调视觉细节。图像嵌入模型倾向于检索具有相似图像细节的产品,但不一定属于同一类别。例如,对图1(a)中的牙线的查询通常导致具有类似包装的产品(例如,电池充电器、棉签)正在取回。其次,它忽略了图像中的语义信息。在产品侧上的检测模型偏差的存在可能引入噪声,当多个产品实体存在于图像内时,导致错误的检索。例如,在图1(B)中,后两个检索到的产品是塑料瓶和项链,汽水罐仅用作参考对象而不是产品本身。这些问题可以通过多模态技术来缓解,多模态技术结合了文本和视觉信息,并且对噪声具有鲁棒性。
使用不同模型的搜索结果比较。左列将用户查询显示为图像,而右列显示了检索到的前4个项目。每个项目的图像都附有其各自的产品名称。值得注意的是,采用图像到图像(I2I)只强调视觉细节,忽略语义信息。但是,通过将MIEM与I2I集成,可以有效地解决这些限制。
-
此外,图像嵌入带来了工程挑战。由于Shopee的电子商务平台1中有大量的产品,并且需要多次生成(Zhang et al. 2018),为每个图像生成嵌入需要巨大的索引量。此外,处理每个产品的多个图像需要映射和去重,这进一步增加了工程复杂性。
-
有可能缓解这些挑战的技术已经出现。像CLIP(拉德福等人,2021)这样的视觉语言预训练模型可以在同一特征空间中对齐图像和文本,从而支持用户基于图像的产品搜索。然而,这些解决方案无法有效地交叉引用产品图像和文本的信息,导致召回阶段的召回分数较低。Cheng等人采用概念感知模态融合来整合来自单个图像的信息与文本,但它不能容纳多个图像(Cheng等人,2023)。此外,它依赖KnnSoftmax(Song et al. 2020)进行训练也增加了训练期间的实现复杂性。一系列以前的作品(例如,METER(Dou et al. 2022)和X-VLM(Zeng,Zhang,and Li 2022))已经解决了图像到文本的排名问题,合并/交叉注意力Transformer为图像和文本对生成匹配分数。然而,这些模型在回忆阶段融合多模态信息方面存在局限性。
-
为了全面解决这些问题,提出了多模态项目嵌入模型(MIEM)。本文介绍了MIEM在Shopee电子商务平台中的设计和部署经验。MIEM将多个图像和产品标题作为输入,并利用合并注意力Transformer模块(Dou等人,2022)来融合来自图像和文本的信息,从而为给定产品生成嵌入。产品名称的加入为图像嵌入注入了明确的语义信息,有效地缓解了图像嵌入模型过于关注图像细节的问题。MIEM自2023年3月起部署在Shopee电商平台,为Shopee的图片搜索业务提供动力。与之前采用的解决方案相比,MIEM使每个用户的点击量显著增加了9.90%,每个用户的订单量显著增加了4.23%。
应用描述
- Shopee图像搜索引擎的总体工作流程如图2所示。系统接受用户的请求(即,上传的图像)作为输入,并输出其认为相关的产品列表。在接收到用户的请求时,系统执行以下步骤:1.它执行产品检测模型以获得图像中产品的边界框。2.然后,从边界框中裁剪的图像通过两个召回模型:1)图像到图像(I2I)召回,以及2)MIEM召回。3.召回的产品被发送到排名模型,在那里它们按照排名分数的降序排序,产生推荐产品的最终列表。
- 将MIEM集成到Shopee图像搜索引擎中是基于图3中所示的框架,由在线和离线组件组成。在线组件执行以下步骤以使用MIEM检索产品:1.在接收到用户请求时,请求处理程序执行解析来自各种来源(例如网页或不同版本的移动的应用程序)的请求的初始任务,并将其转换为统一格式。一旦请求被标准化,它随后被转发到搜索服务器进行进一步处理。2.搜索服务器调用特征服务模块,特征服务模块然后调用检测服务模块以获