Nature发布颠覆传统的深度学习范式

最新推荐文章于 2025-10-24 12:42:28 发布

原创最新推荐文章于 2025-10-24 12:42:28 发布 · 4k 阅读

22 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #人工智能 #nginx #运维 #算法

该文章已生成可运行项目，

文章提出了 TabPFN，一种 适用于小样本表格数据的深度学习基础模型，通过 预训练+一次前向传播 即可完成预测，计算速度极快（2.8秒），在 小规模数据（≤10k） 上超越传统方法（如 XGBoost、CatBoost）。其核心优势 在于 无需训练、自动处理缺失值，并内置不确定性估计，适用于 医学、生物学等小数据任务。然而，其 局限性 在于 不适用于大规模数据（>10k），且无法处理时间序列问题。整体来看，该研究为 表格数据的机器学习带来了新的范式，但 在大数据任务上的应用仍需探索。

TabPFN 算法流程

TabPFN 的算法流程可以分为以下 4 个关键步骤：

1. 预训练阶段：学习通用数据分布（类似大语言模型）

TabPFN 在 数百万个合成数据集（synthetic datasets）上进行 离线预训练，目的是学习一个 泛化能力极强的学习模型。

数据生成：
采用 结构因果模型（Structural Causal Models, SCMs） 生成大量 随机分布的表格数据，包括 线性、非线性、分类、回归、多变量关联等数据分布。
这些合成数据模拟了 真实世界的多种数据模式，让 TabPFN 学习到如何在新数据上做出最优预测。
模型架构：
采用 Transformer 变体 进行学习，但与 NLP 任务不同，TabPFN 主要用于 表格数据。
关键创新在于 双向注意力机制（Two-Way Attention）：

每一行的数据可以关注 同一行的其他特征（类似 NLP 中的 token attention）。
每个特征也可以关注 该列的其他样本，增强特征之间的关系建模。

模型学习目标：
在合成数据上，TabPFN 学习如何进行分类或回归任务，并优化其内在的推理机制，使得在未来遇到新数据时，只需要 前向传播 即可完成预测。

2. 真实数据推理：一次前向传播完成预测

当 TabPFN 处理一个新的数据集时，它 不需要训练，仅通过 一次前向传播（Forward Pass） 即可完成预测。

数据输入：
直接输入一个表格数据（最大支持 10,000 条样本）。
数据格式化后，送入 Transformer 编码器。
表格数据的处理方式：
Transformer 将表格数据转换为 token 序列，类似于 BERT 处理文本。
采用 全局注意力机制，让模型在 行维度 和 列维度 之间建立联系，从而 理解数据的结构。
预测机制：
由于 TabPFN 之前已经在大量数据上学习到了一个“通用学习策略”，它可以通过 回忆（retrieval）+ 生成（generation） 的方式 直接得出预测结果。
这一过程类似于 大型语言模型（LLM）通过 In-Context Learning 进行预测，但 TabPFN 针对 表格数据进行了优化。

3. 计算不确定性

TabPFN 具有 自动不确定性估计（Uncertainty Estimation） 的能力，即它不仅能给出预测结果，还能 量化预测的置信度。

这是通过 贝叶斯神经网络（Bayesian Neural Network）风格的变分推断 机制实现的。
该机制允许 TabPFN 在面对高噪声数据时 输出更宽的置信区间，从而避免过拟合。

4. 结果输出与可解释性

TabPFN 生成的预测结果 不仅包括分类/回归值，还包含置信度评估。

分类任务：
输出类别概率，并提供 预测置信区间。
可以识别 低置信度的数据点，方便进一步人工审查。
回归任务：
输出数值预测结果，并提供 不确定性估计（如置信区间）。
这使得 TabPFN 在 高噪声环境 下依然能给出稳健的预测。

案例解析

论文通过 多个案例 评估了 TabPFN 的性能，主要涉及：

函数拟合任务（回归问题）
实验物理数据建模（分类/回归）

1. 函数拟合任务

论文测试了 多个不同类型的数学函数，让 TabPFN、CatBoost、MLP（神经网络）、线性回归 进行拟合，比较它们的拟合能力。

测试函数

非线性函数（sin(x) + x）
二次函数（x²）
绝对值函数（|x|，具有尖角）
阶梯函数（Step function）
同方差噪声（Homoscedastic noise，均匀噪声）
异方差噪声（Heteroscedastic noise，噪声随变量变化）

实验结果

TabPFN 拟合效果最佳，能精准捕捉 非线性、阶梯、不连续特征，并能处理噪声。
CatBoost 在离散数据（如阶梯函数）上表现较好，但在非线性数据上表现逊色。
MLP（神经网络）在小数据上易欠拟合，无法准确拟合阶梯函数和非线性数据。
线性回归仅能拟合线性趋势，非线性数据表现较差。

✅ TabPFN 能自动学习数据结构，不需要手动调整模型，直接实现最佳拟合。

2. 物理实验数据（光学衍射建模）

研究使用了 光的双缝干涉实验数据，分析了 狭缝宽度、狭缝间距等因素对干涉条纹的影响。

测试目标

让 TabPFN 和 CatBoost 学习光学实验数据的模式，并预测在不同参数下的干涉条纹分布。

实验结果

TabPFN 生成的干涉条纹模式与真实物理实验高度一致，能够清晰再现实验数据。
CatBoost 的预测结果较为模糊，难以精确捕捉干涉条纹的细节。

✅ TabPFN 在科学实验数据建模上表现优越，能泛化到真实实验环境。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述