DeepSeek:回望AI三大主义与加强通识教育

用最简单的语言,在 AI 时代,带领更多的人一起前行。

从 2007 年,乔布斯发布 IPhone 手机后,人们进入了智能手机的时代,于是移动互联网的时代来了。

一、从 GPT 到 DeepSeek

早起的 GPT,并没有引起行业外的人注意,多数还在计算机行业内折腾。人们在谈论大模型的参数有多少时,对于外行看来,更多的是自嗨模式,对于普通人不会关心。

从用户视角看产品,这样在介绍如何产品时,第一时间可以抓住用户的注意力。

DeepSeek 模型的基础是基于 Google 的 Transformer 架构,在算法和工程模式进行了创新。

二、DeepSeek V3 模型

1、混合专家模型

DeepSeek的61个架构层中,58个架构层各自包含256个专家和1个共享专家,V3基座模型总共有6710亿参数,但是每次token仅激活8个专家、370亿参数(~5.5%)。

意味着一次调用,很多人专家其实不用激活起来干活的。


2、多头潜在注意力机制

对巨大的注意力机制矩阵进行压缩,减少参与运算的参数数量,显存占用仅为其他大模型的5%-13%。

得益于这两个机制,DeepSeek 在行业内被人熟知。

三、DeepSeek R1

强化模型推理,进行深度思考,用户可以整个推理过程,这个策略显然是站在用户的视角。

浙江大学在这方面素材的编写、人才的培养形成了机制,并形成了相对完整的体系。

这一切在DeepSeek 官方网站就可以使用:https://www.deepseek.com/

浙江大学 DeepSeek 系列教程:DeepSeek教程

学废了,帮忙点个赞!这对我非常重要!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值