Interpretable Click-Through Rate Prediction through Hierarchical Attention
Zeyu Li, Wei Cheng, Yang Chen, Haifeng Chen, Wei Wan
Univeristy of California, NEC Laboratorie, Google
https://zyli93.github.io/pdfs/ZeyuLi_WSDM20_InterHAt.pdf
在线广告和在线营销中,点击率预估非常重要。点击率预估现有方法既有浅层结构也有深层结构,无论何种结构,都有三个缺陷。
其一,解释模型的输出时缺少令人信服的原理及解释。不可解释的预测和推荐可能难以验证,可靠性和可信性没那么强。在很多应用中,不当的建议可能带来比较严重的后果。
其二,现有方法在分析高阶特征交互方面比较低效。
其三,不同语意子空间中的特征交互可能表达的意义迥异,这一点很多研究人员都忽略了。
这篇文章提出了InterHAt,利用多头子注意力Transformer来学习特征。此外,作者们还利用多个注意力层预测ctr,同时对预测结果给出了可解释性的洞察。InterHAt利用高效的注意力聚合策略可以学到高阶特征交互,同时计算复杂度较低。
在4个公开数据集和一个合成数据集上的实验结果表明了InterHAt的有效性和高效性。
高阶特征及部分学习高阶特征的模型有deepfm以及xdeepfm等
不同语意子空间中的特征交互可能表达的意义迥异示例如下
这篇文章的主要贡献如下
部分现有方法简介及优缺点如下
基于自注意力的模型主要源于transformer和bert
模型整体流程图示如下
下面是类别型特征和数值型特征的embedding方法简介
多头transformer简介及数学表示如下
注意点,这里的分号;表示纵向拼接,而不是横向拼接。
分层注意力表达形式如下
最终可以得到任意阶的交叉特征
所谓hadamard积即为同下标元素相乘
下面是目标函数及优化算法
论文的实验环境如下
数据集分割及信息统计如下
参与对比的模型有
模型指标主要考虑logloss和auc
默认参数设置如下
几种方法的训练时间对比如下
几种方法在