DeepSeek：回望AI三大主义与加强通识教育

小蕾Java

于 2025-03-29 18:30:00 发布

阅读量749

点赞数 7

CC 4.0 BY-SA版权

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/2401_88062214/article/details/146641937

用最简单的语言，在 AI 时代，带领更多的人一起前行。

从 2007 年，乔布斯发布 IPhone 手机后，人们进入了智能手机的时代，于是移动互联网的时代来了。

一、从 GPT 到 DeepSeek

早起的 GPT，并没有引起行业外的人注意，多数还在计算机行业内折腾。人们在谈论大模型的参数有多少时，对于外行看来，更多的是自嗨模式，对于普通人不会关心。

从用户视角看产品，这样在介绍如何产品时，第一时间可以抓住用户的注意力。

DeepSeek 模型的基础是基于 Google 的 Transformer 架构，在算法和工程模式进行了创新。

二、DeepSeek V3 模型

1、混合专家模型

DeepSeek的61个架构层中，58个架构层各自包含256个专家和1个共享专家，V3基座模型总共有6710亿参数，但是每次token仅激活8个专家、370亿参数(~5.5%)。

意味着一次调用，很多人专家其实不用激活起来干活的。

2、多头潜在注意力机制

对巨大的注意力机制矩阵进行压缩，减少参与运算的参数数量，显存占用仅为其他大模型的5%-13%。

得益于这两个机制，DeepSeek 在行业内被人熟知。

三、DeepSeek R1

强化模型推理，进行深度思考，用户可以整个推理过程，这个策略显然是站在用户的视角。

浙江大学在这方面素材的编写、人才的培养形成了机制，并形成了相对完整的体系。

这一切在DeepSeek 官方网站就可以使用：https://www.deepseek.com/

浙江大学 DeepSeek 系列教程：DeepSeek教程

学废了，帮忙点个赞！这对我非常重要！

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。