《Transformer-Empowered Multi-Modal Item Embedding for Enhanced Image Search in E-commerce》中文校对版

系列论文研读目录

例如:



摘要

在过去的几十年中,在电子商务应用的图像搜索领域中取得了显著的进步.传统的图像到图像的检索模型只关注图像的纹理等细节,往往忽略了图像中包含的有用的语义信息。结果,检索到的产品可能拥有相似的图像细节,但不能满足用户的搜索目标。此外,对包含多个图像的产品使用图像到图像检索模型导致显著的在线产品特征存储开销和复杂的映射实现。在本文中,我们报告了所提出的多模态项目嵌入模型(MIEM)的设计和部署,以解决这些限制。它能够利用关于产品的文本信息和多个图像来构造有意义的产品特征。MIEM利用图像的语义信息,有效地补充了图像检索过程,提高了检索结果的整体准确性。MIEM已成为Shopee图片搜索平台不可或缺的一部分。自2023年3月上线以来,Shopee电商平台上的图片搜索功能,实现了单用户点击量9.90%的显著提升,单用户订单量4.23%的大幅提升。

引言

  1. 现代电子商务平台上的图片搜索功能已成为用户无需输入关键字即可找到所需产品的便捷高效方式。当用户上传图片时,该功能会自动识别图片中的商品,并在给定的电子商务平台上返回相关产品。此功能不仅为用户节省了时间和精力,还增强了他们的购物体验。图像搜索功能通常依赖于图像嵌入建模(奇科2021)来从图像中提取特征。基于这些特征,K-最近邻(KNN)聚类(Fix and Hodges 1989)通常用于识别数据库中的相似图像。

  2. 然而,这种单一模式的方法有两个主要的局限性。首先,它过分强调视觉细节。图像嵌入模型倾向于检索具有相似图像细节的产品,但不一定属于同一类别。例如,对图1(a)中的牙线的查询通常导致具有类似包装的产品(例如,电池充电器、棉签)正在取回。其次,它忽略了图像中的语义信息。在产品侧上的检测模型偏差的存在可能引入噪声,当多个产品实体存在于图像内时,导致错误的检索。例如,在图1(B)中,后两个检索到的产品是塑料瓶和项链,汽水罐仅用作参考对象而不是产品本身。这些问题可以通过多模态技术来缓解,多模态技术结合了文本和视觉信息,并且对噪声具有鲁棒性。在这里插入图片描述使用不同模型的搜索结果比较。左列将用户查询显示为图像,而右列显示了检索到的前4个项目。每个项目的图像都附有其各自的产品名称。值得注意的是,采用图像到图像(I2I)只强调视觉细节,忽略语义信息。但是,通过将MIEM与I2I集成,可以有效地解决这些限制。

  3. 此外,图像嵌入带来了工程挑战。由于Shopee的电子商务平台1中有大量的产品,并且需要多次生成(Zhang et al. 2018),为每个图像生成嵌入需要巨大的索引量。此外,处理每个产品的多个图像需要映射和去重,这进一步增加了工程复杂性。

  4. 有可能缓解这些挑战的技术已经出现。像CLIP(拉德福等人,2021)这样的视觉语言预训练模型可以在同一特征空间中对齐图像和文本,从而支持用户基于图像的产品搜索。然而,这些解决方案无法有效地交叉引用产品图像和文本的信息,导致召回阶段的召回分数较低。Cheng等人采用概念感知模态融合来整合来自单个图像的信息与文本,但它不能容纳多个图像(Cheng等人,2023)。此外,它依赖KnnSoftmax(Song et al. 2020)进行训练也增加了训练期间的实现复杂性。一系列以前的作品(例如,METER(Dou et al. 2022)和X-VLM(Zeng,Zhang,and Li 2022))已经解决了图像到文本的排名问题,合并/交叉注意力Transformer为图像和文本对生成匹配分数。然而,这些模型在回忆阶段融合多模态信息方面存在局限性。

  5. 为了全面解决这些问题,提出了多模态项目嵌入模型(MIEM)。本文介绍了MIEM在Shopee电子商务平台中的设计和部署经验。MIEM将多个图像和产品标题作为输入,并利用合并注意力Transformer模块(Dou等人,2022)来融合来自图像和文本的信息,从而为给定产品生成嵌入。产品名称的加入为图像嵌入注入了明确的语义信息,有效地缓解了图像嵌入模型过于关注图像细节的问题。MIEM自2023年3月起部署在Shopee电商平台,为Shopee的图片搜索业务提供动力。与之前采用的解决方案相比,MIEM使每个用户的点击量显著增加了9.90%,每个用户的订单量显著增加了4.23%。

应用描述

在这里插入图片描述

  1. Shopee图像搜索引擎的总体工作流程如图2所示。系统接受用户的请求(即,上传的图像)作为输入,并输出其认为相关的产品列表。在接收到用户的请求时,系统执行以下步骤:1.它执行产品检测模型以获得图像中产品的边界框。2.然后,从边界框中裁剪的图像通过两个召回模型:1)图像到图像(I2I)召回,以及2)MIEM召回。3.召回的产品被发送到排名模型,在那里它们按照排名分数的降序排序,产生推荐产品的最终列表。
  2. 将MIEM集成到Shopee图像搜索引擎中是基于图3中所示的框架,由在线和离线组件组成。在线组件执行以下步骤以使用MIEM检索产品:1.在接收到用户请求时,请求处理程序执行解析来自各种来源(例如网页或不同版本的移动的应用程序)的请求的初始任务,并将其转换为统一格式。一旦请求被标准化,它随后被转发到搜索服务器进行进一步处理。2.搜索服务器调用特征服务模块,特征服务模块然后调用检测服务模块以获得图像中的产品的边界框。3.裁剪后的查询图像用于调用I2I模型和MIEM模型服务,以获得产品的嵌入。4.搜索代理使用这些嵌
虽然提供的引用中未直接提及“Multi-Behavior Hypergraph-Enhanced Transformer for Next-Item Recommendation”的具体内容,但可从相关信息进行推测和分析。 ### 原理 从引用来看,超图可用于模拟用户对下一项推荐的短期偏好,如HyperRec使用超图来建模[^2][^3]。Multi-Behavior Hypergraph-Enhanced Transformer可能结合了超图对多行为依赖的建模能力以及Transformer对序列行为的处理能力。超图可以捕捉不同行为之间复杂的依赖关系,而Transformer能够处理序列行为中的过渡模式。通过对序列行为感知的过渡模式进行编码表示,再结合超图增强的多行为依赖,实现对用户行为的更准确建模,从而为下一项推荐提供依据。例如,超图可以将用户的多种行为(如浏览、购买、收藏等)作为节点,行为之间的关系作为超边,以更好地表示多行为之间的交互。Transformer则可以对用户的行为序列进行处理,学习序列中的模式和规律。 ### 应用 在推荐系统领域,该技术可用于下一项推荐,尤其是在基于会话的场景中。例如,在电商平台中,根据用户当前会话内的一系列行为,预测用户接下来可能想要浏览或购买的商品;在视频平台中,根据用户当前观看视频的行为序列,推荐用户可能感兴趣的下一个视频。通过结合多行为和序列信息,能够提高推荐的准确性和个性化程度。 ### 研究进展 目前提供的引用中没有直接关于该技术研究进展的内容。但从引用可知,之前存在使用超图进行下一项推荐的研究,如HyperRec,但它存在不利用超边缘间信息、不适合基于会话场景以及复杂度高难以在实际场景部署等问题[^2][^3]。Multi-Behavior Hypergraph-Enhanced Transformer可能是为了解决这些问题而提出的新方法,未来的研究可能会集中在进一步优化模型结构、降低复杂度、提高推荐性能等方面。 ```python # 这里只是一个简单的示意代码,并非完整实现 # 假设我们有一个用户行为序列 behavior_sequence = [1, 2, 3, 4, 5] # 可以使用Transformer对序列进行编码 import torch from torch.nn import TransformerEncoder, TransformerEncoderLayer # 定义Transformer编码器层 d_model = 128 nhead = 8 num_layers = 2 encoder_layer = TransformerEncoderLayer(d_model=d_model, nhead=nhead) transformer_encoder = TransformerEncoder(encoder_layer, num_layers=num_layers) # 对行为序列进行编码 input_tensor = torch.tensor(behavior_sequence).unsqueeze(1).float() encoded_sequence = transformer_encoder(input_tensor) print(encoded_sequence) ```
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值