DeepSeek创始人专访:中国的AI不可能永远跟随,需要有人站到技术的前沿

来源:暗涌Waves,整理:Founder Park

因为 V3 版本开源模型的发布,DeepSeek 又火了一把,而且这一次,是外网刷屏。

训练成本估计只有 Llama 3.1 405B 模型的 11 分之一,后者的效果还不如它。

在多项测评上,DeepSeek V3 达到了开源 SOTA,超越 Llama 3.1 405B,能和 GPT-4o、Claude 3.5 Sonnet 等 TOP 模型正面掰掰手腕——而其价格比 Claude 3.5 Haiku 还便宜,仅为 Claude 3.5 Sonnet 的 9%。

在 Chatbot Arena 大模型排行榜上排名第 7,前十名里面,只有它是开源模型,而且是最少限制的 MIT 许可证。

2024 年 5 月,DeepSeek 一跃成名。起因是他们发布的一款名为 DeepSeek V2 的开源模型,提供了一种史无前例的性价比,开启了国产大模型的价格战。

作为大厂外唯一一家储备万张 A100 芯片的公司,DeepSeek 的很多抉择都与众不同。放弃「既要又要」路线,至今专注在研究和技术,未做 toC 应用的公司,也是唯一一家未全面考虑商业化,坚定选择开源路线甚至都没融过资的公司。

DeepSeek 究竟是如何炼成的?36 氪旗下的「暗涌」团队分别在 2023 年 5 月、2024 年 7 月采访了甚少露面的 DeepSeek 创始人梁文锋。

这位技术理想主义者,提供了目前中国科技界特别稀缺的一种声音:他是少有的把「是非观」置于「利害观」之前,并提醒我们看到时代惯性,把「原创式创新」提上日程的人。

文章转载自「暗涌」,原文作者于丽丽,原文编辑刘旌,Founder Park 转载时做了结构调整。

01 

价格战第一枪是怎么打响的?

暗涌:DeepSeek V2 模型发布后,迅速引发一场血雨腥风的大模型价格战,有人说你们是行业的一条鲶鱼。

梁文锋:我们不是有意成为一条鲶鱼,只是不小心成了一条鲶鱼。

暗涌:这个结果让你们意外吗?

梁文锋:非常意外。没想到价格让大家这么敏感。我们只是按照自己的步调来做事,然后核算成本定价。我们的原则是不贴钱,也不赚取暴利。这个价格也是在成本之上稍微有点利润。

暗涌:5 天后智谱 AI 就跟进了,之后是字节、阿里、百度、腾讯等大厂。

梁文锋:智谱 AI 降的是一个入门级产品,和我们同级别的模型仍然收费很贵。字节是真正第一个跟进的。旗舰模型降到和我们一样的价格,然后触发了其它大厂纷纷降价。因为大厂的模型成本比我们高很多,所以我们没想到会有人亏钱做这件事,最后就变成了互联网时代的烧钱补贴的逻辑。

暗涌:外部看来,降价很像在抢用户,互联网时代的价格战通常如此。

梁文锋:抢用户并不是我们的主要目的。我们降价一方面是因为我们在探索下一代模型的结构中,成本先降下来了,另一方面也觉得无论 API,还是 AI,都应该是普惠的、人人可以用得起的东西。

暗涌:在这之前,大部分中国公司都会直接 copy 这一代的 Llama 结构去做应用,为什么你们会从模型结构切入?

梁文锋:如果目标是做应用,那沿用 Llama 结构,短平快上产品也是合理选择。但我们目的地是 AGI,这意味着我们需要研究新的模型结构,在有限资源下,实现更强的模型能力。这是 scale up 到更大模型所需要做的基础研究之一。

除了模型结构,我们还做了大量其他的研究,包括怎么构造数据,如何让模型更像人类等,这都体现在我们发布的模型里。另外,Llama 的结构,在训练效率和推理成本上,和国外先进水平估计也已有两代差距。

暗涌:这种代差主要来自哪里?

梁文锋:首先训练效率有差距。我们估计,国内最好的水平和国外最好的相比,模型结构和训练动力学上可能有一倍的差距,光这一点我们要消耗两倍的算力才能达到同样效果。另外数据效率上可能也有一倍差距,也就是我们要消耗两倍的训练数据和算力,才能达到同样的效果。合起来就要多消耗 4 倍算力。我们要做的,正是不停地去缩小这些差距。

暗涌:大部分中国公司都选择既要模型又要应用,为什么 DeepSeek 目前选择只做研究探索?

梁文锋:因为我们觉得现在最重要的是参与到全球创新的浪潮里去。过去很多年,中国公司习惯了别人做技术创新,我们拿过来做应用变现,但这并非是一种理所当然。这一波浪潮里,我们的出发点,就不是趁机赚一笔,而是走到技术的前沿,去推动整个生态发展。

暗涌:互联网和移动互联网时代留给大部分人的惯性认知是,美国擅长搞技术创新,中国更擅长做应用。

梁文锋:我们认为随着经济发展,中国也要逐步成为贡献者,而不是一直搭便车。过去三十多年 IT 浪潮里,我们基本没有参与到真正的技术创新里。我们已经习惯摩尔定律从天而降,躺在家里 18 个月就会出来更好的硬件和软件。Scaling Law 也在被如此对待。

但其实,这是西方主导的技术社区一代代孜孜不倦创造出来的,只因为之前我们没有参与这个过程,以至于忽视了它的存在。

02 

真正的差距是原创和模仿之差

暗涌:为什么 DeepSeek V2 会让硅谷的很多人惊讶?

梁文锋:在美国每天发生的大量创新里,这是非常普通的一个。他们之所以惊讶,是因为这是一个中国公司,在以创新贡献者的身份,加入到他们游戏里去。毕竟大部分中国公司习惯 follow,而不是创新。

暗涌:但这种选择放在中国语境里,也过于奢侈。大模型是一个重投入游戏,不是所有公司都有资本只去研究创新,而不是先考虑商业化。

梁文锋:创新的成本肯定不低,过去那种拿来主义的惯性也和过去的国情有关。但现在,你看无论中国的经济体量,还是字节、腾讯这些大厂的利润,放在全球都不低。我们创新缺的肯定不是资本,而是缺乏信心以及不知道怎么组织高密度的人才实现有效的创新。

暗涌:为什么中国公司——包括不缺钱的大厂,这么容易把快速商业化当第一要义?

梁文锋:过去三十年,我们都只强调赚钱,对创新是忽视的。创新不完全是商业驱动的,还需要好奇心和创造欲。我们只是被过去那种惯性束缚了,但它也是阶段性的。

暗涌:但你们究竟是一个商业组织,而非一个公益科研机构,选择创新,又通过开源分享出去,那要在哪里形成护城河?像2024 年 5 月这次 MLA 架构的创新,也会很快被其他家 copy 吧?

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值