TabTransformer：借助Transformer的预训练机制处理表格数据

原创已于 2023-01-28 21:03:02 修改 · 3.8k 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#Attention #Transformer #结构化数据 #深度学习 #注意力机制

于 2022-04-07 00:33:59 首次发布

机器学习专栏收录该内容

10 篇文章

订阅专栏

TabTransformer是一种新型的表格数据建模方法，旨在解决多层感知机和树模型在处理表格数据时的局限性。它结合了Transformer架构，对离散特征进行编码，并通过预训练策略如掩码语言建模和替换标记检测增强半监督学习能力。TabTransformer在处理缺失值和噪声方面更健壮，且生成的向量具有可解释性，提高了模型性能。

部署运行你感兴趣的模型镜像

研究动机

表格数据是推荐系统，线上广告，画像优化等领域中最为常见的数据形式。此前对表格数据的建模主要集中于基于梯度提升的树模型，比如GBDT，这与图像和文本数据依赖深度学习差异明显。但是树模型有如下问题：

无法对图像和文本进行编码
半监督学习中表现不佳
对缺失值和噪声的处理能力以及健壮性一般

如果使用多层感知机，会存在另外一些问题：

模型以及学习所得的向量缺乏可解释性
对缺失值和噪声不够健壮
半监督学习中表现不佳
多层感知机在大部分数据集的表现不如树模型

解决的问题

TabTransformer是用来解决基于多层感知机和深度学习模型的问题，并缩短多层感知机与树模型的表现差距，同时基于实验提出了TabTransformer的表现增益(performance gain)。总结起来有4点：

性能优于多层感知机和深度学习模型
能够基于上下文信息生成可解释的向量
对缺失值和噪声更为健壮
针对表格数据，将预训练及针对具体任务的训练步骤拆开，使其具有更优秀的半监督学习能力

所提的方法

基于Transformer，首先为离散特征进行特征编码，然后将编码结果传入Transformer，之后输出离散特征的向量化结果，并将该结果与连续特征归一化后的向量化结果进行拼接，作为多层感知机的输入，最终输出结果。分类任务的损失函数为交叉熵，回归任务的损失函数为均方误差。

Transformer的结构

离散特征列编码是TabTransformer中非常重要的一个部分，作者构建了一个向量查询表，用于查询离散特征列 $i$ 对应的向量 $eϕi(.)e_{\phi_i}(.)$ 。列 $i$ 如果一共具有 $d_i$ 个种类，则 $eϕi(.)e_{\phi_i}(.)$ 则为 $d_i+1)$ 维向量，多出来的一位用来表示缺失值。每一维的向量值 $x_j$ 记作 $eϕi(j)=[cϕi,wϕij]e_{\phi_i}(j)=[c_{\phi_i}, w_{\phi_{ij}}]$ ，其中 $cϕi∈Rlc_{\phi_i} \in \mathbb {R^l}$ ， $wϕij∈Rd−lw_{\phi_{ij}}\in \mathbb {R^{d-l}}$ ，这里的 $l$ 是超参数，唯一标识符 $cϕic_{\phi_i}$ 则是用来将列 $i$ 中的类别与其他列中的类别区分开。

唯一标识符是专为表格数据设计的。在传统的针对语言建模的Transformer中，每个词的向量值都会被加上一个位置编码值以反映其在句子中的位置，但在表格数据中，特征间并没有位置关系，因此引入了唯一标识符。

向量预训练针对标签并不充足的半监督学习场景，有掩码语言建模(MLM)和替换标记检测(RTD)两种。对于离散特征 $x_{cat}=\{x_1, x_2, ..., x_m\}$ ，MLM随机选取 $k%k\%$ 的特征将其掩盖。之后通过最小化交叉熵损失，将Transformer训练成一个多分类的分类器，使其可以预测被掩盖的特征列的原始数据。不同于MLM掩盖原始特征的方式，RTD将原始特征值替换为一个随机值，之后通过二分类判断该列是否被替换为随机值。由于表格数据中特征列的类别取值范围往往有限，并且每个被随机替换的列都会有一个单独的二分类分类器，因此随机值并不需要使用辅助生成器生成。