DeepSeek
文章平均质量分 95
AIGCmagic社区
AlGCmagic社区是以AIGC全栈技术与应用为主线的学习交流平台,涉及AI绘画、AI视频、大模型、数字人、多模态、全行业AIGC赋能等应用方向,内部包含海量学习资源,致力推动AIGC行业的发展与普惠!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
DeepSeek专题:DeepSeek-R1核心知识点速览(附脑图)
纯强化学习的突破:DeepSeek-R1-Zero是第一个通过纯强化学习(RL)而不依赖监督微调(SFT)来提升语言模型推理能力的模型,标志着在这一领域迈出了重要一步。多阶段训练管道:提出了包含两个RL阶段和两个SFT阶段的多阶段训练管道,旨在发现改进的推理模式并符合人类偏好。冷启动数据的利用:通过引入冷启动数据,DeepSeek-R1在初期RL训练中表现更稳定,避免了基础模型的早期不稳定问题。推理导向的强化学习:在冷启动数据的基础上,应用大规模推理导向的RL训练,显著提升了模型的推理能力。原创 2025-03-14 16:17:02 · 1321 阅读 · 0 评论 -
DeepSeek专题:DeepSeek-V3核心知识点速览
自研 MoE 模型,671B 参数,激活 37B,在 14.8T token 上进行了预训练,用于解决大语言模型的高效推理和训练问题。多头潜在注意力(MLAMLA架构通过低秩联合压缩注意力键和值来减少推理过程中的KV缓存,从而提高推理效率。DeepSeekMoE架构使用细粒度的专家并行和隔离一些专家作为共享专家,以提高训练效率。无辅助损失的负载均衡为了最小化辅助损失对模型性能的影响,提出了一种无辅助损失的负载均衡策略,通过引入偏置项来动态调整专家负载。原创 2025-03-14 15:57:24 · 1206 阅读 · 0 评论 -
DeepSeek专题:DeepSeek-V2核心知识点速览
一种强大的MoE语言模型,通过创新的架构实现了经济和高效的训练和推理。图2 | DeepSeek-V2架构示意图。MLA通过显著减少生成所需的KV缓存来确保高效推理,而DeepSeekMoE则通过稀疏架构以经济成本训练出强大的模型。多头潜在注意力(MLA一种新的注意力机制,通过低秩键值联合压缩来显著减少推理时的键值缓存,从而提高推理效率。标准多头注意力(MHA)首先通过三个矩阵计算查询(q)、键(k)和值(v):然后,将q、k、v切片成多个头进行多头注意力计算:最后,通过softmax函数。原创 2025-03-08 22:34:08 · 1066 阅读 · 0 评论 -
DeepSeek专题:DeepSeek-V1核心知识点速览
旨在通过长期视角推动开源语言模型的发展。首先,开发了一个包含2万亿token的数据集,并对其进行去重、过滤和重新混合。去重阶段通过跨多个dump进行去重,过滤阶段通过详细的语义和语言学评估来增强数据密度,重新混合阶段则通过增加代表性不足领域的存在来平衡数据。表1|各种常见 Crawl dumps 去重比率模型架构DeepSeek LLM的微观设计主要遵循LLaMA的设计,采用Pre-Norm结构和RMSNorm函数,使用SwiGLU作为前馈网络的激活函数。原创 2025-02-16 22:57:01 · 950 阅读 · 0 评论 -
DeepSeek专题:以专业角度详细讲讲Deepseek-R1的高质量数据合成过程⌛
AIGCmagic社区知识星球是国内首个以AIGC全栈技术与商业变现为主线的学习交流平台,涉及以及全行业AIGC赋能等100+应用方向。星球内部包含海量学习资源、专业问答、前沿资讯、内推招聘、AI课程、AIGC模型、AIGC数据集和源码等干货。截至目前,星球内已经累积了2000+AICG时代的前沿技术、干货资源以及学习资源;涵盖了600+AIGC行业商业变现的落地实操与精华报告;完整构建了以为核心的AIGC时代五大技术方向架构,其中包含近500万字完整的AIGC学习资源与实践经验。原创 2025-02-16 22:43:35 · 1967 阅读 · 0 评论
分享