DeepSeek成功背后是宽客精神

最新推荐文章于 2025-05-03 14:09:17 发布

极道Jdon

最新推荐文章于 2025-05-03 14:09:17 发布

阅读量397

点赞数 3

文章标签： javascript reactjs

本文链接：https://blog.youkuaiyun.com/cfy_banq/article/details/145351990

版权

DeepSeek之所以能如此迅速地击败其他公司，是因为他们都是宽客。背后是量化幻方，专门从事A股量化投资的公司，他们天生就能优化了大规模ML的亚纳秒延迟。有一个破解的训练/推理基础设施意味着你运行实验，而其他人正在编写LaTex。

简单来说：DeepSeek公司能像赛跑冠军一样飞快超过其他公司，秘密就是：他们是一群超级数学和电脑高手！就像小朋友从幼儿园就开始练习算数一样，他们从小就在研究让电脑"想问题"变得比眨眼睛还要快的方法。他们还发明了魔法工具箱，别人还在吭哧吭哧写作业报告的时候，他们早就用魔法工具做完100个科学实验啦！

传说：DeepSeek创始故事是这样的
有一天，银行打电话给我们说：“嘿，你们的账户已经满了，钱太多了！”然后我们就在想：“我们现在有这么多钱，可以用GPU集群做点什么呢？”（GPU集群就是一堆很厉害的电脑，可以处理很多复杂的事情。）
我们想了想，突然有个人说：“不知道啊，也许我们可以训练一些大型语言模型（LLM），就当是个副业，玩玩看？”
另一个人听了，笑着说：“对啊，当然可以！反正我们还有两个小时才吃午饭呢，闲着也是闲着。”
就这样，DeepSeek的故事开始了！

OpenAI刚刚宣布o1-mini免费
由于DeepSeek低成本竞争，OpenAI宣布o1-mini免费。

字节跳动调整员工福利：
增加洗牙、子女流感疫苗福利。2026年起停发春节红包，2025年停发放端午、中秋节礼品。不再提供下午茶，茶水间免费供应坚果。

事实上，DeepSeek r1版本最大的输家是Meta
中国模型胜过Llama美洲驼：
中国的AI公司现在有点难。因为外国不让卖给他们最好的芯片，所以他们很难找到好用的“大脑”来训练AI模型。而且，钱也不多，不像以前那样有很多钱可以花在研究、开发和设备上。但是，DeepSeek这家公司特别厉害，他们用很少的钱做出了比Meta（一家很大的外国公司）更好的AI模型，还把模型免费给大家用。他们让大家看到，就算钱少、东西少，也能在短时间内做出更棒的AI模型。难怪Meta有点慌了，他们的“美洲驼Llama4”模型现在必须变得更好，不然就会丢脸。中国的公司让竞争变得更激烈了！

Meta的战略一直不是追赶OpenAI，而是让一切都开源，这样封闭的伟大模型（如GPT4o）的价值就会下降。贬值消耗战。这似乎适得其反。

DeepSeek R1 也让 Grok 3 感到很大压力
如果 Grok 3 的表现只是和 DeepSeek R1 差不多，那 Grok 3 就算是失败了，因为它用了超级贵的 10 万个 Nvidia GPU 来训练。其实，光是在性能上打败 DeepSeek R1 还不够，因为 DeepSeek 太便宜了。价格也得有竞争力才行！

没有限制可能会让你觉得自由，但其实也会让你变得懒散，因为你总觉得可以随便玩，随便放弃。而有了限制，反而会逼着你去动脑筋，想办法解决问题，变得更聪明、更有创造力。因为你不能一直玩，也不能一直逃避，你得学会用有限的东西去做出更好的结果。

中国在深度学习（Deepseek）和游戏开发（Black Myth：Wukong）方面取得快速进步的秘诀在于，他们已经发现，雇佣拥有相关技能的年轻人，胜过雇佣那些拥有令人印象深刻的简历但在技术上没有跟上的婴儿潮一代。

https://www.jdon.com/77192.html