大模型论文 | 清华大学发布ReMoE,使用ReLU让MoE完全可微

1. ReMoE: Fully Differentiable Mixture-of-Experts with ReLU Routing

稀疏激活的专家混合(MoE)模型被广泛用于在不增加计算预算的情况下扩展模型容量。然而,传统的 TopK 路由器以一种非连续、不可微的方式进行训练,这限制了它们的性能和可扩展性。为了解决这一问题,我们提出了 ReMoE,这是一种完全可微的 MoE 架构,它提供了一个简单而有效的替代方案,用 ReLU 作为路由器来代替传统的 TopK+Softmax 路由。

我们进一步提出了调节路由器稀疏性同时平衡各专家负载的方法。ReMoE 的连续特性使得计算可以在标记和层之间进行高效的动态分配,同时也展示了领域专业化的能力。我们的实验表明,ReMoE 在各种模型大小、专家数量和粒度级别上始终优于传统的 TopK 路由 MoE。此外,ReMoE 在专家数量上的可扩展性更优,超越了传统的 MoE 架构。基于 Megatron-LM 的实现代码可在以下链接获取:https://github.com/thu-ml/ReMoE。

论文: https://arxiv.org/pdf/2412.14711

2. Fourier Position Embedding: Enhancing Attention’s Periodic Extension for Length Generalization

通过改进旋转位置嵌入(RoPE)来扩展语言模型(LMs)的上下文长度已成为一种趋势。虽然现有研究主要解决RoPE在注意力机制中的局限性,但本文对语言模型的几乎所有部分进行了分析,揭示了它们对基于RoPE的注意力在长度泛化方面的不利影响。利用离散信号处理理论,我们展示了RoPE通过隐式实现非均匀离散傅里叶变换,从而实现了周期性注意力。然而,这种周期性受到了以下因素引起的削弱:1)注意力机制之外的线性层和激活函数;2)由时域截断带来的频率成分训练不足。在此基础上,我们提出了傅里叶位置嵌入(FoPE),通过增强注意力的频域特性,改进了其周期扩展和长度泛化能力。FoPE构建了傅里叶级数并将无效的频率成分归零,从而提高了模型对频谱损伤的鲁棒性。各种规模模型的实验表明,在不同的上下文窗口内,FoPE相比RoPE和ALiBi能够保持更稳定的困惑度和更一致的准确性。

论文: https://arxiv.org/pdf/2412.17739

3. DepthLab: From Partial to Complete

在使用深度数据时,缺失值仍然是一个常见问题,通常由数据采集不完整或视角变化等原因引起。本研究通过DepthLab填补了这一空白,DepthLab是一种基于图像扩散先验的基础深度修复模型。我们的模型具有两个显著优势:1. 对深度不足的区域表现出较强的鲁棒性,能够对连续区域和孤立点提供可靠的修补;2. 在填补缺失值时,能够忠实地保持与已知深度条件下的尺度一致性。

基于这些优势,我们的方法在多个下游任务中表现出色,包括3D场景修复、文本到3D场景生成、使用DUST3R的稀疏视角重建以及LiDAR深度补全,在数值性能和视觉质量方面均超越了现有解决方案。我们的项目页面及源代码可在 https://johanan528.github.io/depthlab_web/ 获取。

论文: https://arxiv.org/pdf/2412.18153

4. DiTCtrl: Exploring Attention Control in Multi-Modal Diffusion Transformer for Tuning-Free Multi-Prompt Longer Video Generation

类似Sora的视频生成模型已经通过多模态扩散transformer(MM-DiT)架构取得了显著的进展。然而,当前的视频生成模型主要专注于单一提示(single-prompt),难以生成符合现实世界动态场景的多重连续提示下的连贯场景。尽管一些开创性研究已经探索了多提示视频生成,但它们面临着严格的训练数据需求、提示跟随能力不足以及过渡不自然等重大挑战。

为了解决这些问题,我们首次在MM-DiT架构下提出了DiTCtrl,这是一种无需训练的多提示视频生成方法。我们的核心理念是将多提示视频生成任务视为具有平滑过渡的时间视频编辑。为此,我们首先分析了MM-DiT的注意力机制,发现3D全注意力的行为模式与类UNet扩散模型中的交叉/自注意力块类似,这使得我们能够通过注意力共享实现跨不同提示的掩膜引导的精确语义控制,从而支持多提示视频生成。基于我们精心的设计,DiTCtrl生成的视频在无需额外训练的情况下,能够在多个连续提示下实现平滑的过渡和一致的物体运动。此外,我们还推出了MPVBench,这是一个专门为多提示视频生成设计的新基准,用于评估多提示生成的性能。大量实验证明,我们的方法在无需额外训练的情况下,达到了最先进的性能。

论文: https://arxiv.org/pdf/2412.18597


5. 如何系统学习掌握AI大模型?

AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。

学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享

1. 成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图方向不对,努力白费

这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础(书籍含电子版PDF)

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

在这里插入图片描述

4. 2024行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

在这里插入图片描述

5. 大模型项目实战

学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量,更需要充分的准备。

在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

在这里插入图片描述

全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以微信扫描下方优快云官方认证二维码,免费领取【保证100%免费

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值