Transformer直接预测完整数学表达式,推理速度提高多个数量级

前言

来自 Mata AI、法国索邦大学、巴黎高师的研究者成功让 Transformer 直接预测出完整的数学表达式。

转载自丨机器之心

符号回归,即根据观察函数值来预测函数数学表达式的任务,通常涉及两步过程:预测表达式的「主干」并选择数值常数,然后通过优化非凸损失函数来拟合常数。其中用到的方法主要是遗传编程,通过多次迭代子程序实现算法进化。神经网络最近曾在一次尝试中预测出正确的表达式主干,但仍然没有那么强大。

在近期的一项研究中,来自 Meta AI(Facebook)、法国索邦大学、巴黎高师的研究者提出了一种 E2E 模型,尝试一步完成预测,让 Transformer 直接预测完整的数学表达式,包括其中的常数。随后通过将预测常数作为已知初始化提供给非凸优化器来更新预测常数。

图片

论文地址:https://arxiv.org/abs/2204.10532

该研究进行消融实验以表明这种端到端方法产生了更好的结果,有时甚至不需要更新步骤。研究者针对 SRBench 基准测试中的问题评估了该模型,并表明该模型接近 SOTA 遗传编程的性能,推理速度提高了几个数量级。

方法

Embedder

该模型提供了 N 个输入点 (x, y) ∈ R^(D+1),每个输入点被表征为 d_emb 维度的 3(D + 1) 个 token。随着 D 和 N 变大,这会导致输入序列很长(例如,D = 10 和 N = 200 时有 6600 个 token),这对 Transformer 的二次复杂度提出了挑战。

为了缓解这种情况,该研究提出了一个嵌入器( embedder )来将每个输入点映射成单一嵌入。嵌入器将空输入维度填充(pad)到 D_max,然后将 3(D_max+1)d_emb 维向量馈入具有 ReLU 激活的 2 层全连接前馈网络 (FFN) 中,该网络向下投影到 d_emb 维度,得到的 d_emb 维的 N 个嵌入被馈送到 Transformer。

该研究使用一个序列到序列的 Transformer 架构,它有 16 个 attention head,嵌入维度为 512,总共包含 86M 个参数。像《 ‘Linear algebra with transformers 》研究中一样,研究者观察到解决这个问题的最佳架构是不对称的,解码器更深:在编码器中使用 4 层,在解码器中使用 16 层。该任务的一个显著特性是 N 个输入点的排列不变性。为了解释这种不变性,研究者从编码器中删除了位置嵌入。

如下图 3 所示,编码器捕获所考虑函数的最显著特征,例如临界点和周期性,并将专注于局部细节的短程 head 与捕获函数全局的长程 head 混合在一起。

图片

训练

该研究使用 Adam 优化器优化交叉熵损失,在前 10000 步中将学习率从 10^(-7) 提升到 2.10^(-4),然后按照论文《 Attention is all you need 》中的方法将其衰减为步数的平方根倒数(inverse square root)。该研究提供了包含来自同一生成器的 10^4 个样本的验证集,并训练模型,直到验证集的准确率达到饱和(大约 50 个 epoch 的 3M 个样本)。

输入序列长度随点数 N 显著变化;为了避免浪费填充,该研究将相似长度的样本一起批处理,确保一个完整的批处理包含至少 10000 个 token。

实验结果

该研究不仅评估了域内准确性,也展示了在域外数据集上的结果。

域内性能

表 2 给出了该模型的平均域内结果。如果不进行修正,E2E 模型在低精度预测(R^2 和 Acc_0.1 指标)方面优于在相同协议下训练的 skeleton 模型,但常数预测中存在的错误会导致在高精度(Acc_0.001)下的性能较低。

图片

修正之后的程序显著缓解了这个问题,让 Acc_0.001 提升了三倍,同时其他指标也有所改进。

图片

图 4A、B、C 给出了 3 个公式难度指标的消融实验结果(从左到右):一元算子的数量、二元算子的数量和输入维数。正如人们所预料的那样,在所有情况下,增加难度系数会降低性能。这可能会让人认为该模型在输入维度上不能很好地扩展,但实验表明,与并发方法相比,该模型在域外数据集上的扩展性能非常好,如下图所示。

图片

图 4D 显示了性能与输入模型的点数 N 之间的关系。在所有情况下,性能都会提高,但 E2E 模型比 skeleton 模型更显著,这证明大量数据对于准确预测表达式中的常数是非常重要的。

外推和稳健性。如图 4E 所示,该研究通过改变测试点的规模来检查模型内插 / 外推的能力:该研究没有将测试点归一化为单位方差,而是将它们归一化为 σ。随着 σ 的增加,性能会下降,但是即使远离输入(σ = 32),外推性能仍然不错。

最后,如图 4F 所示,研究者检查了使用方差 σ 的乘性噪声(multiplicative noise)对目标 y 的影响:y → y(1 + ξ), ξ ∼ N (0, ε)。这个结果揭示了一些有趣的事情:如果不进行修正,E2E 模型对噪声的稳健性不强,实际上在高噪声下性能比 skeleton 模型差。这显示了 Transformer 在预测常数时对输入的敏感程度。修正之后 E2E 模型的稳健性显著提高,但将常数初始化为估计值的影响较小,因为常数的预测被噪声破坏了。

如何学习AI大模型?

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

<think> 首先,用户的问题是:“我想了解倒置transformer的相关信息 请问倒置transformer的原理、应用及发展”。这里的“倒置transformer”可能指的是“Inverted Residual Mobile Block”或类似概念,因为它出现在引用中,比如在引用[4]中提到“iRMB 倒置残差移动块”。 从引用中: - 引用[2]讨论了“Inverted Residual Block (IRB)”和“Transformer”,提出了“Meta Mobile Block (MMB)”。 - 引用[3]提到了“倒置残差移动块 (iRMB)”。 - 引用[4]是关于使用“iRMB 倒置残差移动块”改进YOLOv10。 所以,“倒置transformer”很可能指的是“iRMB”或类似结构,即一个轻量级模块,结合了CNN和Transformer的优势。 用户要求提供原理、应用及发展。我需要基于引用构建回答,但引用不是用户需求的一部分,它们是参考。系统提示说:“上述引用仅供参考,并不是用户真正的需求”,所以我应该参考用户上一次的问题和我的回答。但在这个对话中,这是第一条消息,所以没有“上一次的问题和回答”。因此,我需要基于提供的引用和一般知识来回答。 关键引用: - [2]: 设计出发点:统一CNN和Transformer优势;原理:基于MMB,使用参数化扩展比率λ和高效算子F。 - [3]: 目的是开发高效密集预测模型;提出了iRMB;构建了EMO模型;在ImageNet等基准上表现良好。 - [4]: iRMB用于优化YOLOv10,克服局部和全局特征建模问题。 现在,规划回答: 1. **结构清晰**:逐步解释原理、应用、发展。 2. **使用中文**:整个回答用中文。 3. **格式要求**: - 行内数学表达式用$...$。 - 独立公式用$$...$$。 - LaTeX语法正确。 - 添加引用标识。 - 生成相关问题。 回答结构: - **原理**:解释什么是倒置transformer(即iRMB),其设计理念,核心组成部分。 - **应用**:在计算机视觉中的具体应用,如目标检测(YOLOv10)、分类模型(EMO)。 - **发展**:当前研究进展、优势、未来展望。 从引用[2]和[3],原理包括: - 统一IRB和Transformer组件。 - 基于MMB:参数化扩展比率λ和算子F。 - 实例化IRB、MHSA、FFN等。 引用[3]提到iRMB是“单残差元移动块”,用于构建EMO模型。 引用[4]提到用于YOLOv10改进。 所以,在回答中定义: - 倒置transformer可能指iRMB。 - 原理:结合了倒置残差块(IRB)的高效性和Transformer的动态建模能力。 数学部分:如果有公式,使用LaTeX。例如,引用[2]提到参数化λ和算子F,但没有具体公式。我可以一般性地描述。 添加引用:在适当位置添加[^2]、[^3]、[^4]。 最后,生成相关问题。 完整回答大纲: 1. **引言**:简要介绍倒置transformer(iRMB)。 2. **原理**: - 设计出发点:统一CNN和Transformer优势。 - 核心思想:基于MMB,使用λ和F实例化模块。 - 关键组成部分:如IRB、MHSA、FFN的统一表达。 3. **应用**: - 在图像分类(EMO模型)。 - 在目标检测(YOLOv10改进)。 - 具体优势:轻量化、高效、性能提升。 4. **发展**: - 当前研究热点:如计算机视觉中的不变性处理。 - 优势:参数效率、速度和准确性平衡。 - 未来展望:如引用[1]中的展望。 5. **结论**:总结重要性。 6. **相关问题**:生成3-5个相关问题。 生成相关问题: 例如: 1. iRMB模块在具体模型中的实现细节是什么? 2. 倒置transformer在其他视觉任务中的应用如何? 3. 未来倒置transformer的发展趋势是什么? 确保回答真实可靠:基于引用内容,不要编造。 现在,撰写回答。 </think> ### 倒置 Transformer 模块的原理、应用及发展 在本回答中,“倒置 Transformer”主要指的是 **倒置残差移动块(Inverted Residual Mobile Block, iRMB)**,这是一种结合了卷积神经网络(CNN)和 Transformer 优势的轻量级架构。它源自对 Meta Mobile Block(MMB)的扩展,旨在统一高效卷积模块(如 IRB)和 Transformer 组件(如多头自注意力机制 MHSA 和前馈网络 FFN),以解决局部特征建模和长距离交互的动态建模问题[^2][^3]。以下从原理、应用及发展三方面详细解析。 #### 1. 原理 倒置 Transformer 的核心设计出发点是统一 CNN 的效率和 Transformer 的动态建模能力。传统 CNN 在局部特征提取上高效,但缺乏全局上下文理解;Transformer 擅长长距离依赖建模,但计算开销大。iRMB 通过以下机制实现平衡: - **统一架构基础(MMB)**:iRMB 基于 Meta Mobile Block(MMB),该模块使用参数化扩展比率 $\lambda$ 和高效算子 $F$ 来实例化不同组件。MMB 可以灵活表示 IRB(倒置残差块)、MHSA(多头自注意力)和 FFN(前馈网络),其本质表达为: $$ \text{Output} = F(\lambda(\text{Input})) + \text{Residual Connection}, $$ 其中 $F$ 是轻量级算子(如深度可分离卷积或注意力机制),$\lambda$ 控制特征扩展比,以优化计算成本[^2][^3]。这避免了引入复杂结构,确保模块简单高效。 - **关键操作**: - **倒置残差结构**:与标准残差块不同,iRMB 采用“瓶颈”设计(先扩展通道数再压缩),减少参数量的同时强化特征复用。例如,在处理输入 $x$ 时,使用扩张卷积层提升维度,再应用注意力机制捕获全局关联。 - **动态建模集成**:嵌入轻量化注意力机制(如高效 MHSA),允许模型自适应聚焦关键区域,解决视觉不变性问题(如尺度、旋转变化)[^1][^4]。位置编码(Positional Encoding)确保空间信息保留,弥补 CNN 的局限性。 这种设计在参数数量和浮点运算次数(FLOPs)上实现高效权衡,显著提升模型泛化能力[^2][^3]。例如,iRMB 的扩展比 $\lambda$ 可调,适用于不同规模模型,确保在移动设备上实时运行。 #### 2. 应用 倒置 Transformer 模块(如 iRMB)主要应用于计算机视觉领域,尤其在密集预测任务中(如分类、检测和分割),因其轻量化和高性能优势: - **图像分类**:在 Efficient Model(EMO)架构中,iRMB 作为基础模块构建了类 ResNet 的层次结构。例如,EMO 模型在 ImageNet-1K 基准上表现优异:EMO-1M/2M/5M 分别实现了 71.5%、75.1% 和 78.4% 的 Top-1 准确率,超越同级别 CNN 或纯 Transformer 模型,同时在移动设备(如 iPhone 14)上运行时比 EdgeNeXt 快 2.8-4.0 倍[^3]。 - **目标检测**:集成到 YOLOv10 等模型中,iRMB 用于改进特征提取网络。通过取代标准卷积层,它增强了模型对局部细节和全局上下文的学习能力,提升检测精度和速度。实战案例显示,在 COCO2017 基准上,改进后的 YOLOv10 在保持轻量化的同时实现了更高的 mAP(平均精度均值)[^4]。 - **其他视觉任务**:包括语义分割(如在 ADE20K 数据集)和实时处理应用,其中 iRMB 的低延迟特性使其适用于边缘计算设备,如自动驾驶和移动端 AI[^3][^4]。 这些应用突显了 iRMB 的核心优势:在参数、FLOPs 与性能间取得平衡,克服了传统模块无法兼顾效率和动态建模的缺陷[^4]。 #### 3. 发展 倒置 Transformer 是当前计算机视觉研究的热点,其发展轨迹聚焦于轻量化、泛化能力和多模态扩展: - **当前进展**: - **性能优化**:研究重点在简化模块设计(避免混合多个复杂组件),通过统一框架(如 MMB)吸收 CNN 和 Transformer 优势。基准测试表明,iRMB 在 ImageNet 和 COCO 等数据集上持续刷新 SOTA(state-of-the-art)记录[^3]。 - **硬件适配**:针对移动设备优化,例如减少内存占用和加速推理,支持实时应用。这得益于倒置结构的高效性,实测在嵌入式系统上表现卓越[^3]。 - **挑战与展望**: - **不变性处理**:未来工作需强化对视觉不变性(如光照、遮挡)的鲁棒性,可能结合注意力机制和位置嵌入的动态调整[^1]。 - **跨领域扩展**:扩展到视频处理、多模态(图像+文本)任务,或与其他架构(如 Vision Transformer)融合,以提升泛化能力。引用[1]指出,Transformer 架构在计算机视觉中的整合仍是活跃领域,需探索低层次操作与高层语义的协同设计。 - **开源与标准化**:推动 iRMB 作为轻量级基础模块的普及,类似 ResNet 在 CNN 中的角色,促进社区共建高效模型库[^2][^3]。 总之,倒置 Transformer(以 iRMB 为代表)通过创新设计平衡了效率与性能,已成为高效视觉模型的基石,未来在 AI 部署和泛化应用上潜力巨大[^3][^4]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值