综述2022_Revisiting Deep Learning Models for Tabular Data

代码

链接: code

// An highlighted block
var foo = 'bar';

论文

链接: paper

3puss3

如果要是我来写这篇文章,我会如何组织这个结构?
问题是怎么提出的、如果是我来做这个事情的话该怎么办,我应该可以用什么方法来实现、
实验我应该这么做,能不能比他做得更好、我怎么做没有往前走的部分。
--脑补出它整个流程是什么样子的,似乎是自己在做实验,写论文一样。

第三遍之后,关上文章也能会回忆出很多细节的部分和整体流程,之后在基于它做研究时(可以详详细细的复述一遍)。

3.1 存在什么问题

// A code block
var foo = 'bar';

3.2 有什么方法解决问题

// A code block
var foo = 'bar';

1puss1

1.1标题title

重新审视表格数据的深度学习模型

1.2摘要abs

关于表格数据深度学习的现有文献提出了各种新颖的架构,并报告了各种数据集上的竞争结果。然而,所提出的模型通常没有适当地相互比较,现有的作品往往使用不同的基准和实验协议。因此,研究人员和实践者都不清楚什么模型表现最好。此外,该领域仍然缺乏有效的基线,即在不同问题上提供有竞争力的性能的易于使用的模型。在这项工作中,我们对表格数据的DL架构的主要系列进行了概述,并通过识别两个简单而强大的深层架构来提高表格DL中的基线。
第一个是一个类似ResNet的架构,这是一个强大的基线,在以前的作品中经常缺失。
第二个模型是我们对表格数据的Transformer架构的简单调整,它在大多数任务上都优于其他解决方案。
这两种模型进行了比较,许多现有的架构上的不同的一组任务下相同的训练和调整协议。我们还比较了最好的DL模型与梯度提升决策树,并得出结论,仍然没有普遍的上级解决方案。源代码可 https://github.com/yandex-research/rtdl.上获得。

1.3结论conclusion

在这项工作中,我们调查了表格数据深度学习领域的现状,并改进了表格数据学习中的基线状态。
首先,我们已经证明了一个简单的类似ResNet的架构可以作为一个有效的基线。
其次,我们提出了FT-Transformer --一种简单的Transformer架构的改编,在大多数任务上都优于其他DL解决方案。
我们还将新的基线与GBDT进行了比较,并证明GBDT在某些任务上仍然占主导地位。
该研究的代码和所有细节都是开源的,我们希望我们的评估和两个简单的模型(ResNet和FT-Transformer)将作为进一步开发表格DL的基础。

1.4研究背景intro

由于深度学习在图像、音频和文本等数据领域的巨大成功(Goodfellow et al.,2016年),有很多研究兴趣将这一成功扩展到以表格格式存储的数据的问题。在这些问题中,数据点被表示为异构特征的向量,这对于工业应用和ML竞赛来说是典型的,其中神经网络以GBDT的形式具有强大的非深度竞争对手(Chen和Guestrin,2016;Ke等人,2017;Prokhorenkova等人,2018年)。沿着潜在的更高性能,对表格数据使用深度学习是有吸引力的,因为它允许为问题构建多模态管道,其中只有一部分输入是表格,其他部分包括图像,音频和其他DL友好的数据。然后可以通过针对所有模态的梯度优化来端到端地训练这样的管道。由于这些原因,最近提出了大量的DL解决方案,并且新的模型不断出现(Arik和Pfister,2020;Badirli等人,2020;Hazimeh等人,2020;Huang等人,2020年;Könauer等人,2017;Popov等人,2020;Song等人,2019年;Wang等人,2017年,2020年)。
不幸的是,由于缺乏已建立的基准(例如ImageNet(Deng et al.,2009)用于计算机视觉或GLUE(Wang等人,2019年a)对于NLP),现有的论文使用不同的数据集进行评估,并且提出的DL模型往往不能充分地相互比较。因此,从目前的文献中,还不清楚DL模型通常比其他模型表现得更好,以及DL模型是否超过了GBDT。此外,尽管有大量新颖的架构,但该领域仍然缺乏简单可靠的解决方案,这些解决方案允许以适度的努力实现有竞争力的性能,并在许多任务中提供稳定的性能。在这方面,多层感知器(MLP)仍然是该领域的主要简单基线,但它并不总是对其他竞争对手构成重大挑战。
所描述的问题阻碍了研究进程,并使论文中的观察结果不够结论性。因此,我们认为,现在是审查实地最新进展并提高表格DL中基线标准的时候了。我们从一个假设开始,即在表格数据的背景下,经过充分研究的DL架构块可能未被充分探索,并可用于设计更好的基线。因此,我们从其他领域的著名的战斗测试架构的灵感,并获得两个简单的表格数据模型。第一种是类ResNet架构(He et al.,2015年),第二个是FT-Transformer -我们对Transformer架构的简单改编(Vaswani等人,2017年)的表格数据。然后,我们将这些模型与许多现有的解决方案进行比较,这些解决方案在相同的训练和超参数调整协议下针对不同的任务集。首先,我们发现,没有一个考虑的DL模型可以始终优于ResNet类模型。鉴于其简单性,它可以作为未来工作的一个强有力的基线。其次,FT-Transformer在大多数任务上表现出最佳性能,成为该领域新的强大解决方案。有趣的是,FT-Transformer被证明是表格数据的一个更通用的架构:它在更广泛的任务上比更“传统”的ResNet和其他DL模型表现得更好。最后,我们将最好的DL模型与GBDT进行比较,并得出结论,仍然没有普遍的上级解决方案。
我们总结了我们的论文的贡献如下:
1.我们彻底评估的主要型号的表格DL在不同的任务,以调查他们的相对性能。
2.我们证明了一个简单的ResNet类架构是表格DL的有效基线,这被现有文献所忽视。鉴于其简单性,我们建议在未来的表格DL工作中进行比较。<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值