大模型论文 | 清华大学发布ReMoE，使用ReLU让MoE完全可微_remoe: fully differentiable mixture-ofexperts with-优快云博客

本文链接：https://blog.youkuaiyun.com/Code1994/article/details/144749122

1. ReMoE: Fully Differentiable Mixture-of-Experts with ReLU Routing

稀疏激活的专家混合（MoE）模型被广泛用于在不增加计算预算的情况下扩展模型容量。然而，传统的 TopK 路由器以一种非连续、不可微的方式进行训练，这限制了它们的性能和可扩展性。为了解决这一问题，我们提出了 ReMoE，这是一种完全可微的 MoE 架构，它提供了一个简单而有效的替代方案，用 ReLU 作为路由器来代替传统的 TopK+Softmax 路由。

我们进一步提出了调节路由器稀疏性同时平衡各专家负载的方法。ReMoE 的连续特性使得计算可以在标记和层之间进行高效的动态分配，同时也展示了领域专业化的能力。我们的实验表明，ReMoE 在各种模型大小、专家数量和粒度级别上始终优于传统的 TopK 路由 MoE。此外，ReMoE 在专家数量上的可扩展性更优，超越了传统的 MoE 架构。基于 Megatron-LM 的实现代码可在以下链接获取：https://github.com/thu-ml/ReMoE。

论文: https://arxiv.org/pdf/2412.14711

2. Fourier Position Embedding: Enhancing Attention’s Periodic Extension for Length Generalization

通过改进旋转位置嵌入（RoPE）来扩展语言模型（LMs）的上下文长度已成为一种趋势。虽然现有研究主要解决RoPE在注意力机制中的局限性，但本文对语言模型的几乎所有部分进行了分析，揭示了它们对基于RoPE的注意力在长度泛化方面的不利影响。利用离散信号处理理论，我们展示了RoPE通过隐式实现非均匀离散傅里叶变换，从而实现了周期性注意力。然而，这种周期性受到了以下因素引起的削弱：1）注意力机制之外的线性层和激活函数；2）由时域截断带来的频率成分训练不足。在此基础上，我们提出了傅里叶位置嵌入（FoPE），通过增强注意力的频域特性，改进了其周期扩展和长度泛化能力。FoPE构建了傅里叶级数并将无效的频率成分归零，从而提高了模型对频谱损伤的鲁棒性。各种规模模型的实验表明，在不同的上下文窗口内，FoPE相比RoPE和ALiBi能够保持更稳定的困惑度和更一致的准确性。

论文: https://arxiv.org/pdf/2412.17739

3. DepthLab: From Partial to Complete

在使用深度数据时，缺失值仍然是一个常见问题，通常由数据采集不完整或视角变化等原因引起。本研究通过DepthLab填补了这一空白，DepthLab是一种基于图像扩散先验的基础深度修复模型。我们的模型具有两个显著优势：1. 对深度不足的区域表现出较强的鲁棒性，能够对连续区域和孤立点提供可靠的修补；2. 在填补缺失值时，能够忠实地保持与已知深度条件下的尺度一致性。

基于这些优势，我们的方法在多个下游任务中表现出色，包括3D场景修复、文本到3D场景生成、使用DUST3R的稀疏视角重建以及LiDAR深度补全，在数值性能和视觉质量方面均超越了现有解决方案。我们的项目页面及源代码可在 https://johanan528.github.io/depthlab_web/ 获取。

论文: https://arxiv.org/pdf/2412.18153

4. DiTCtrl: Exploring Attention Control in Multi-Modal Diffusion Transformer for Tuning-Free Multi-Prompt Longer Video Generation

类似Sora的视频生成模型已经通过多模态扩散transformer（MM-DiT）架构取得了显著的进展。然而，当前的视频生成模型主要专注于单一提示（single-prompt），难以生成符合现实世界动态场景的多重连续提示下的连贯场景。尽管一些开创性研究已经探索了多提示视频生成，但它们面临着严格的训练数据需求、提示跟随能力不足以及过渡不自然等重大挑战。

为了解决这些问题，我们首次在MM-DiT架构下提出了DiTCtrl，这是一种无需训练的多提示视频生成方法。我们的核心理念是将多提示视频生成任务视为具有平滑过渡的时间视频编辑。为此，我们首先分析了MM-DiT的注意力机制，发现3D全注意力的行为模式与类UNet扩散模型中的交叉/自注意力块类似，这使得我们能够通过注意力共享实现跨不同提示的掩膜引导的精确语义控制，从而支持多提示视频生成。基于我们精心的设计，DiTCtrl生成的视频在无需额外训练的情况下，能够在多个连续提示下实现平滑的过渡和一致的物体运动。此外，我们还推出了MPVBench，这是一个专门为多提示视频生成设计的新基准，用于评估多提示生成的性能。大量实验证明，我们的方法在无需额外训练的情况下，达到了最先进的性能。

论文: https://arxiv.org/pdf/2412.18597