- 博客(2)
- 收藏
- 关注
原创 【DeepSeek】Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention
长上下文建模(Long-context modeling)对于下一代语言模型至关重要,但标准注意力机制(Attention Mechanism)的高计算成本带来了显著的挑战。稀疏注意力(Sparse Attention)为提升效率同时保持模型能力提供了方向。本研究提出了NSA(Natively trainable Sparse Attention),一种可原生训练的稀疏注意力机制,通过算法创新与硬件优化实现高效长上下文建模。NSA采用动态分层稀疏策略,结合粗粒度标记压缩(Token Compression)
2025-03-05 17:47:16
827
原创 Kimi K1.5: Scaling Reinforcement Learning with LLMS
本文介绍了Kimi K1.5,这是一个通过强化学习(RL)训练的最新多模态大型语言模型(LLM)。传统的语言模型预训练主要依赖于下一个词预测,这在训练数据量有限的情况下存在瓶颈。Kimi K1.5通过强化学习突破了这一限制,展示了在多个基准测试中达到最先进的推理性能,例如在AIME上达到77.5,在MATH 500上达到96.2,在Codeforces上达到94百分位,在MathVista上达到74.9,与OpenAI的o1模型相当。
2025-02-11 18:05:14
1353
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅