WSDM2020|InterHAt分层注意力可解释CTR预估(已开源)

WSDM2020会议上提出的InterHAt模型通过层次注意力机制解决CTR预估问题,提供可解释性,并在多个数据集上表现出有效性与高效性。该模型学习高阶特征交互,适用于在线广告等领域。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Interpretable Click-Through Rate Prediction through Hierarchical Attention

Zeyu Li, Wei Cheng, Yang Chen, Haifeng Chen, Wei Wan

Univeristy of California, NEC Laboratorie, Google

https://zyli93.github.io/pdfs/ZeyuLi_WSDM20_InterHAt.pdf

在线广告和在线营销中,点击率预估非常重要。点击率预估现有方法既有浅层结构也有深层结构,无论何种结构,都有三个缺陷。

其一,解释模型的输出时缺少令人信服的原理及解释。不可解释的预测和推荐可能难以验证,可靠性和可信性没那么强。在很多应用中,不当的建议可能带来比较严重的后果。

其二,现有方法在分析高阶特征交互方面比较低效。

其三,不同语意子空间中的特征交互可能表达的意义迥异,这一点很多研究人员都忽略了。

这篇文章提出了InterHAt,利用多头子注意力Transformer来学习特征。此外,作者们还利用多个注意力层预测ctr,同时对预测结果给出了可解释性的洞察。InterHAt利用高效的注意力聚合策略可以学到高阶特征交互,同时计算复杂度较低。 

在4个公开数据集和一个合成数据集上的实验结果表明了InterHAt的有效性和高效性。

高阶特征及部分学习高阶特征的模型有deepfm以及xdeepfm等

不同语意子空间中的特征交互可能表达的意义迥异示例如下

这篇文章的主要贡献如下

部分现有方法简介及优缺点如下

基于自注意力的模型主要源于transformer和bert

模型整体流程图示如下

下面是类别型特征和数值型特征的embedding方法简介

多头transformer简介及数学表示如下

注意点,这里的分号;表示纵向拼接,而不是横向拼接。

分层注意力表达形式如下

最终可以得到任意阶的交叉特征

所谓hadamard积即为同下标元素相乘

下面是目标函数及优化算法

论文的实验环境如下

数据集分割及信息统计如下

参与对比的模型有

模型指标主要考虑logloss和auc

默认参数设置如下

几种方法的训练时间对比如下

几种方法在

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值