自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 【DeepSeek】Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention

长上下文建模(Long-context modeling)对于下一代语言模型至关重要,但标准注意力机制(Attention Mechanism)的高计算成本带来了显著的挑战。稀疏注意力(Sparse Attention)为提升效率同时保持模型能力提供了方向。本研究提出了NSA(Natively trainable Sparse Attention),一种可原生训练的稀疏注意力机制,通过算法创新与硬件优化实现高效长上下文建模。NSA采用动态分层稀疏策略,结合粗粒度标记压缩(Token Compression)

2025-03-05 17:47:16 827

原创 Kimi K1.5: Scaling Reinforcement Learning with LLMS

本文介绍了Kimi K1.5,这是一个通过强化学习(RL)训练的最新多模态大型语言模型(LLM)。传统的语言模型预训练主要依赖于下一个词预测,这在训练数据量有限的情况下存在瓶颈。Kimi K1.5通过强化学习突破了这一限制,展示了在多个基准测试中达到最先进的推理性能,例如在AIME上达到77.5,在MATH 500上达到96.2,在Codeforces上达到94百分位,在MathVista上达到74.9,与OpenAI的o1模型相当。

2025-02-11 18:05:14 1353

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除