CIKM 2021 | 图模型在广告检索(Ad Retrieval)中的应用

▐ 1. 摘要

图模型能够有效的挖掘数据中的关系信息来增强数据表示,在研究和工业领域都被广泛应用。阿里妈妈搜索广告技术团队于2019年开源了工业界首个支持大规模分布式的深度图学习平台Euler(https://github.com/alibaba/euler),被业界广泛使用(Github Star:2.7K)。基于Euler框架,我们进行了在不同算法模块的多版算法迭代升级,本文针对电商检索系统中海量用户行为以及多视图并存(如共同点击、共同竞买或文本相似等)带来的挑战,我们将介绍在搜索广告检索模块(ad retrieval)中的一种可扩展的多视图广告图匹配引擎(SMAD)。利用电商商品体系的类目树结构,我们提出了一种类目相关性约束下的图采样和分割算法,可以实现大规模图的分布式训练;同时,为了更好的捕捉多视图结构,我们提出了一种并行的多视图训练模型,可以将不同视图下的信息有机融合起来。在阿里搜索广告场景中,该方法在相关性、覆盖率和平台营收等指标上均取得了明显的效果。该项工作论文发表在 CIKM 2021 ,欢迎交流讨论。

▐ 2. 引言

在电商搜索平台中,用户通过搜索词(Query)来反映其意图,平台会给用户返回一系列产品,包括广告(Ad)和自然商品(Item)。为了平衡效率和效果,如图(1)左下所示,业界搜索系统通常采用多阶段的搜索架构:首先使用简单高效的模型从大规模的广告候选集中检索出更小规模的相关的广告(广告检索模块,ad retrieval),然后使用更加复杂精细的模型对检索出广告进行排序(排序模块,ad ranking)。在本文中,针对广告检索模块,我们提出使用图嵌入技术来得到 Query 和 Ad 的表征,并通过 ANN(Approximate Nearest Neighbor)来检索相关广告,保证计算效率的同时使用图模型的表征能力优势提升匹配效果。

afe859cceb6ba7e98c62e52503b75bb8.png

图(1):淘宝搜索广告系统架构,包含了广告检索和广告排序两个阶段。在广告检索阶段,我们提出了SMAD检索算法,通过图学习的方式来学习用户搜索和广告之间的匹配关系。

然而,直接将传统的图嵌入方法[2, 4-8]应用于电商搜索广告中的检索任务,会遇到可扩展性和相关性下降的问题。考虑到工业场景下具有数十亿规模的节点(Query、Item 和 Ad),因此需要多台机器来存储图数据,从而产生较高的通信成本。此外,在全图上进行随机游走可能导致相关性下降,例如,一个 Query 节点“连衣裙”和一个连衣裙相关的Ad节点有共同点击连边,而后者与“毛衣”相关的商品也具有共同点击关系(例如,在同一个 Query “女装”下),现有的方法[3,7]因为没有限制从“连衣裙”到“毛衣”的随机游走路径从而无法保证相关性。此外,在类似淘宝的电商平台,在 Query 和 Item/Ad 之间有多种类型的关系,例如共同点击,文本相似等等,可以把每种关系将节点关联起来的图看成是一种“视图”(view),单独视图通常都是稀疏和有偏的,需要对多视图进行融合来实现互补。同时,淘宝上有数十种节点属性,包括类目、品牌、店铺等,充分利用这些信息可以提升模型的泛化能力。因此,我们希望设计一种方法能够有效利用丰富的节点属性和多视图信息来提升模型效果。

在本文,我们提出了一个新颖的广告检索框架,即可扩展的多视图广告检索(Scalable multi-view ad retrieval,SMAD),并已在淘宝广告的生产环境中部署。其创新之处包括以下三个方面:

首先,我们提出利用电商系统中的类目树以及图的聚集性来进行游走和采样。在电商平台中,每个节点(Query/Item/Ad)均会被分配到类目树中的某一个节点(如图(2)所示)。为了尊重用户的搜索意图,Query 和 Ad 应该在同一个子类目下进行匹配。具体地,SMAD 通过类目树的性质来进行子图内邻居搜索,这种简单有效的策略能显著提升通信和计算效率,同时能够增强 Query 和 Ad 之间的相关性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值