KDD2021|华为联合上交提出CTR预估数值特征embedding学习框架AutoDis(已开源)

华为与上海交通大学合作提出了AutoDis,一个用于CTR预测的数值特征embedding学习框架,旨在解决数值特征处理难题。AutoDis包括元embedding、可微分自动离散化和聚合算法,已在MindSpore开源,并在实际广告平台中提升CTR和eCPM。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

An Embedding Learning Framework for Numerical Features in CTR Prediction

Huifeng Guo, Bo Chen, Ruiming Tang, Weinan Zhang, Zhenguo Li, Xiuqiang He

Huawei Noah’s Ark Lab, Shanghai Jiao Tong University

https://arxiv.org/pdf/2012.08986.pdf

工业界推荐系统中,CTR预估非常重要,很多深层CTR模型都遵循embedding和特征交互的范式。但是,大多数模型都集中在设计网络结构来更好的对特征交互进行建模。而对于特征embedding模块,尤其是数值型特征,被忽略了。

现有针对数值特征的处理方法很难捕获有效信息,这是因为现有方法信息容量比较小,基于离线专家特征工程很难离散化。这篇文章针对CTR预估,提出一种新的针对数值特征的embedding学习框架,AutoDis,该框架模型容量更大,而且可以以端到端的形式训练,同时还可以保留唯一的表示属性。

AutoDis包含三个核心部分,元embedding,自动离散化以及聚合算法。具体而言,针对每一个数值域提出元embedding,可以利用可控范围的参数来学习域的全局知识。然后,可微分自动离散算法可以对数值特征软离散化,并且可以捕获数值特征和元embedding的相关性。最后,通过聚合函数,可以学到特有并且富含信息的embedding。

两个公开数据集和一个工业界数据集上的大量实验表明了AutoDis的有效性。AutoDis已经部署到主广告平台,在线A/B测试结果相对基准模型CTR提升2.1%,eCPM提升2.7%。此外,该框架已经在MindSpore开源。

目前工业界主流CTR预估模型,主要有以下几个

7663bc61c58a5f7c3ace4e1e9a50b303.png

主流CTR预估框架图示如下

e1d7d8637cf8623ee36e165785605c1a.png

大部分类别型特征可以直接embedding,但是数值型特征进行embedding时比较麻烦

714ba7b1830105ce956b87b59360deec.png

8eeb8107e8e5781a6020b3e540c664f2.png

现有针对数值型特征的处理办法,可以分为以下三类,各类方法简介及对比如下

e72ad694df3bdafe5a162afe9f3f9e65.png

作者们所提出的AutoDis简介及优势如下

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值