
LLM - DeepSeek
文章平均质量分 94
LLM - DeepSeek
nopSled
一周一更
展开
-
DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models翻译
大型语言模型 (LLM) 彻底改变了人工智能中的数学推理方法,推动了定量推理基准和几何推理基准的重大进步。此外,这些模型已被证明有助于帮助人类解决复杂的数学问题。然而,GPT-4 和 Gemini-Ultra 等尖端模型尚未公开,目前可访问的开源模型在性能上远远落后。在本研究中,我们引入了 DeepSeekMath,这是一种特定领域语言模型,其数学能力显著优于开源模型,并在学术基准上接近 GPT-4 的性能水平。翻译 2025-01-25 04:34:34 · 214 阅读 · 0 评论 -
DeepSeek-Prover-V1.5翻译
大型语言模型的最新进展对人工智能中的数学推理和定理证明产生了重大影响。尽管在自然语言领域取得了显著进展,但语言模型在形式化定理证明方面仍然面临巨大挑战,例如使用 Lean 和 Isabelle,这需要严格的推导以满足验证系统的形式化规范。即使是像 GPT-4 这样的高级模型也难以应对复杂的形式化证明,这凸显了所涉及的编码和数学的复杂性。形式化定理证明模型不仅必须掌握像 Lean 定理证明器这样的形式系统的语法和语义,还必须将抽象的数学推理与精确的形式化表示结合起来。翻译 2024-08-26 04:16:05 · 923 阅读 · 0 评论 -
DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model翻译
过去几年,大型语言模型 (LLM) 经历了快速发展,让我们看到了通用人工智能 (AGI) 的曙光。一般来说,LLM 的智能会随着参数数量的增加而提高,从而能够在各种任务中展现出新兴的能力。然而,这种改进是以更大的训练计算资源和潜在的推理吞吐量下降为代价的。这些限制带来了重大挑战,阻碍了 LLM 的广泛采用和使用。为了解决这个问题,我们推出了 DeepSeek-V2,这是一个强大的开源混合专家 (MoE) 语言模型,其特点是通过创新的 Transformer 架构实现经济的训练和高效的推理。翻译 2024-06-08 18:03:35 · 1316 阅读 · 0 评论 -
DeepSeek-V3 Technical Report翻译
我们提出了DeepSeek-V3,这是一个强大的混合专家(MoE)语言模型,总共有671B个参数,每个token激活37B。为了实现高效的推理和经济高效的训练,DeepSeek-V3采用了多头潜在注意力(MLA)和DeepSeekMoE架构,这些架构在DeepSeek-V2中得到了彻底的验证。此外,DeepSeek-V3开创了一种无辅助损失的负载平衡策略,并设置了多token预测训练目标以获得更强大的性能。翻译 2025-01-17 19:02:12 · 192 阅读 · 0 评论