Deepseek的战略考虑以及核心竞争力本质

战略考虑

资本驱动发展模式

美国科技股相关公司,其发展依赖资本驱动。简单来讲,就是借助投资以及对未来概念的兑现,以此达成长期增长。美国整体在很大程度上也是采用这种模式。就像 Deepseek 的突然出现,使得美国股市遭受冲击,背后或许就是这个原因。美股公司往往需要数年时间(一般是5-10年),将理念转化为实际产品,从而支撑当下较高的估值。

换句话说:科技上的创新和领先性是美国的经济命脉。美国以此让其他一些国家掏钱,和美国经济绑定。又以此对中国等国家进行技术封锁。Deepseek打破了这个局面,促进了全球科技的自由蓬勃发展。

那Deepseek是怎样做到的呢?

核心竞争力本质

工程改良

Deepseek的成功实际上和这么多年中国依托于人口优势的互联网技术发展密不可分。中国有全球业务量最大的支付清算基础设施网联以及阿里腾讯这些巨大C端用户量并发量的系统,巨大的业务量让工程思想得到发展和锤炼。而Deepseek的创新就是将这些工程思想在大模型领域上进行运用。

大模型也是从搜索引擎到大数据再到算法的再次崛起过程中一步步发展起来的。

《Attention Is All You Need》‌是一篇由谷歌机器翻译团队在2017年发表的论文,提出了Transformer模型。Attention 注意力我个人理解类似于搜索引擎里做倒排索引的反转词频。比如一句话:我想过的人生是秀兰邓波儿那样的。

其中 的 是一个常见词。在所有数据中出现的频率高,所以它对决定这句话的关键特征起的决定作用就小。而 秀兰邓波儿 则很不常见,它就是本句话的关键特性。所谓反转词频就是词在所有文本中出现的频率越高则特征比重越低。

f0f7651250e9dda588270bbb065422b0.png

模型参数可以理解为决定模型计算结果公式里的常量。常量越多,公式越复杂,结果往往越好。最新Deepseek的671B模型,意思是有671billion个参数。

回到主题Deepseek的工程改良其中一点是混合专家模型MoE。本质上是先通过训练将算法分组,这样将每个分组分别训练再整合。这种分治的思想处理的数据成笛卡尔积的减少,也就是为什么Deepseek消耗了更少的资源。

前几天OpenAI又发布了更大计算的新模型,而Deepseek也发表了新文章介绍其工程改良作为回应。而这些思想其实咱们在日常开发过程中自己去想去总结去运用,在各个方面都可以获得很高的收益,这才是Deepseek带给咱们的启迪。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值