【Deepseek技术原理】第一篇:深度剖析和图解模型结构MLA
最近DeepSeek在国际很火,甚至引起了美国总统的关注,一方面效果比肩闭源模型ChatGPT/O1,另外它开启了除openAI的pretrain+SFT+RLHF之外的新范式,同时训练和运行成本极低,引起国内讨论DeepSeek是否是国运级的创新。网上文章很多,但是真正能讲清楚原理的却少有。本博客的特点是结合图示,去深刻理解论文中的各种数学公式,极大的加深对模型原理的理解。
原创
2025-03-14 00:26:00 ·
925 阅读 ·
0 评论