AI 论文周报丨Attention机制/英伟达VLA模型/TTS模型/图神经网络……一文了解 AI 最新进展

视觉语言模型(VLMs)与视觉语言架构(VLAs)已在自动驾驶领域得到广泛应用。然而,现有方法大多存在明显局限:或是缺乏显式的推理机制,或是以自由、非结构化的方式进行推理,导致模型难以泛化到训练数据分布之外。

Nvidia 推出 Alpamayo-R1(AR1),这是一种具有结构化推理能力的视觉-动作(VA)模型,它扩展了已经提出的模型 Alpamayo-VA,通过连接推理和动作预测,以提升复杂驾驶场景下的决策能力,为通用自动驾驶提供支持。通过将可解释的推理与精确控制相结合,AR1 展示了迈向四级自动驾驶的实用路径。

论文链接https://go.hyper.ai/Q15y9

最新 AI 论文https://go.hyper.ai/hzChC

为了让更多用户了解学术界在人工智能领域的最新动态,HyperAI超神经官网(hyper.ai)现已上线「最新论文」板块,每天都会更新 AI 前沿研究论文。以下是我们为大家推荐的 5 篇热门 AI 论文,一起来速览本周 AI 前沿成果吧 ⬇️

本周论文推荐

1. Every Token Counts: Generalizing 16M Ultra-Long Context in Large Languag Models

本文探讨了构建「能够记忆的机器」这一挑战,将长期记忆问题定义为高效超长上下文建模的问题。研究人员认为,实现这一目标需要具备三个关键特性:稀疏性、随机访问的灵活性以及长度泛化能力。为应对超长上下文建模的挑战,本文引入了一种新颖的注意力机制——分层稀疏注意力(Hierarchical Sparse Attention, HSA),该机制同时满足上述三项特性。将 HSA 集成到 Transformer 架构中,研究人员构建了一个参数量为 80 亿的混合专家(MoE)模型 HSA-UltraLong。

论文链接: https://go.hyper.ai/axKy6

在这里插入图片描述

HSA-UltraLong 架构

2. Alpamayo-R1

题目:Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail

本文提出 Alpamayo-R1(AR1),一种融合因果推理与轨迹规划的视觉-语言-动作模型(VLA),以提升复杂驾驶场景下的决策能力。评估结果表明,相较于仅依赖轨迹的基线模型,该模型在复杂场景下的规划准确率最高提升 12%;在闭环仿真中,车辆偏离道路率降低 35%,近距离遭遇率下降 25%。通过将可解释的推理与精确的控制相融合,AR1 为实现 L4 级自动驾驶提供了一条切实可行的技术路径。

论文链接: https://go.hyper.ai/Q15y9

在这里插入图片描述

Alpamayo-R1 架构

3 . F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching

本文提出了F5-TTS,一种基于流匹配(flow matching)与扩散Transformer(Diffusion Transformer, DiT)的全非自回归文本到语音(text-to-speech, TTS)系统。在公开的 10 万小时多语言数据集上训练后,F5-TTS 展现出高度自然且富有表现力的零样本生成能力,支持无缝的语言切换(code-switching),并具备高效的语速控制性能。

论文链接: https://go.hyper.ai/Q15y9

在这里插入图片描述

F5-TTS 训练概述(左)和推理(右)

4. Latent Collaboration in Multi-Agent Systems

本文提出 LatentMAS——一种端到端、无需训练的框架,支持 LLM 智能体之间纯粹的隐空间协作。在 LatentMAS 中,每个智能体首先通过最后一层隐藏状态嵌入,自回归地生成隐空间思维表示;随后,共享的隐空间工作记忆保存并传递各智能体的内部表征,确保信息交换无损。

论文链接: https://go.hyper.ai/M587U

在这里插入图片描述

LatentMAS 概述

5. Deeper-GXX: Deepening Arbitrary GNNs

本文提出了一种名为 Deeper-GXX 的图神经网络(GNN)新方法。该方法由两个核心模块构成:权重衰减图残差连接模块(Weight-Decaying Graph Residual Connection, WDG-ResNet)和拓扑引导图对比损失函数(Topology-Guided Graph Contrastive Loss, TGCL)。WDG-ResNet 通过引入动态权重衰减机制,有效缓解梯度消失问题,同时抑制阴影邻居效应;TGCL 则利用图的拓扑结构引导对比学习,增强节点表示的判别能力,抑制过平滑。

论文链接: https://go.hyper.ai/gwM7J

在这里插入图片描述

任意 GNN 与 Deeper-GXX

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值