weixin_44376877-优快云博客

原创【DeepSeek】Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention

长上下文建模(Long-context modeling)对于下一代语言模型至关重要，但标准注意力机制(Attention Mechanism)的高计算成本带来了显著的挑战。稀疏注意力(Sparse Attention)为提升效率同时保持模型能力提供了方向。本研究提出了NSA（Natively trainable Sparse Attention），一种可原生训练的稀疏注意力机制，通过算法创新与硬件优化实现高效长上下文建模。NSA采用动态分层稀疏策略，结合粗粒度标记压缩(Token Compression)

2025-03-05 17:47:16 827

原创 Kimi K1.5: Scaling Reinforcement Learning with LLMS

本文介绍了Kimi K1.5，这是一个通过强化学习（RL）训练的最新多模态大型语言模型（LLM）。传统的语言模型预训练主要依赖于下一个词预测，这在训练数据量有限的情况下存在瓶颈。Kimi K1.5通过强化学习突破了这一限制，展示了在多个基准测试中达到最先进的推理性能，例如在AIME上达到77.5，在MATH 500上达到96.2，在Codeforces上达到94百分位，在MathVista上达到74.9，与OpenAI的o1模型相当。

2025-02-11 18:05:14 1353

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 【DeepSeek】Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention

原创 Kimi K1.5: Scaling Reinforcement Learning with LLMS

空空如也

空空如也

原创【DeepSeek】Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention