WSDM2020|InterHAt分层注意力可解释CTR预估(已开源)

最新推荐文章于 2025-05-10 13:47:43 发布

frank_hetest

最新推荐文章于 2025-05-10 13:47:43 发布

阅读量1.2k

点赞数 1

CC 4.0 BY-SA版权

文章标签：机器学习深度学习人工智能算法神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/hestendelin/article/details/109590040

WSDM2020会议上提出的InterHAt模型通过层次注意力机制解决CTR预估问题，提供可解释性，并在多个数据集上表现出有效性与高效性。该模型学习高阶特征交互，适用于在线广告等领域。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Interpretable Click-Through Rate Prediction through Hierarchical Attention

Zeyu Li, Wei Cheng, Yang Chen, Haifeng Chen, Wei Wan

Univeristy of California, NEC Laboratorie, Google

https://zyli93.github.io/pdfs/ZeyuLi_WSDM20_InterHAt.pdf

在线广告和在线营销中，点击率预估非常重要。点击率预估现有方法既有浅层结构也有深层结构，无论何种结构，都有三个缺陷。

其一，解释模型的输出时缺少令人信服的原理及解释。不可解释的预测和推荐可能难以验证，可靠性和可信性没那么强。在很多应用中，不当的建议可能带来比较严重的后果。

其二，现有方法在分析高阶特征交互方面比较低效。

其三，不同语意子空间中的特征交互可能表达的意义迥异，这一点很多研究人员都忽略了。

这篇文章提出了InterHAt，利用多头子注意力Transformer来学习特征。此外，作者们还利用多个注意力层预测ctr，同时对预测结果给出了可解释性的洞察。InterHAt利用高效的注意力聚合策略可以学到高阶特征交互，同时计算复杂度较低。

在4个公开数据集和一个合成数据集上的实验结果表明了InterHAt的有效性和高效性。

高阶特征及部分学习高阶特征的模型有deepfm以及xdeepfm等

不同语意子空间中的特征交互可能表达的意义迥异示例如下

这篇文章的主要贡献如下

部分现有方法简介及优缺点如下

基于自注意力的模型主要源于transformer和bert

模型整体流程图示如下

下面是类别型特征和数值型特征的embedding方法简介

多头transformer简介及数学表示如下

注意点，这里的分号；表示纵向拼接，而不是横向拼接。

分层注意力表达形式如下

最终可以得到任意阶的交叉特征

所谓hadamard积即为同下标元素相乘

下面是目标函数及优化算法

论文的实验环境如下

数据集分割及信息统计如下

参与对比的模型有

模型指标主要考虑logloss和auc

默认参数设置如下

几种方法的训练时间对比如下

几种方法在

最低0.47元/天解锁文章

200万优质内容无限畅学

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。