从"国产大模型"搞到"拼夕夕GPU集群"?
来脑洞一下,为什么这事看起来美好,但实际操作起来比登天还难。
先聊聊为啥会有这个想法
现在的AI训练卡简直就是"数字茅台":
H100一卡难求,价格直接起飞、B200更是只能看个热闹、连A100都成了"奢侈品"
看看我们的老朋友Hadoop,用一堆便宜的x86服务器,就能处理海量数据。那我们为啥不能用一堆4090来训练大模型呢?
听起来很美好对不对?但等等...
为什么这事没那么简单
显存容量是个大坎,4090才24GB显存,连GPT-3的一片碎片都装不下,企业级显卡动辄80GB+,这差距跟开电动车追F1似的。通信开销要命,大模型训练需要显卡之间频繁交换数据,消费级显卡的通信带宽比企业级差太多,PCIe带宽再快,也快不过NVLink和InfiniBand。稳定性是个无底洞,企业级显卡是按24/7工作设计的,消费级显卡超负荷工作,容易"罢工",一张卡出问题,整个训练任务就得重来。软件生态不友好,NVIDIA的企业级功能基本都锁在数据中心显卡上,很多优化特性在消费级显卡上用不了,驱动程序对消费级显卡的支持也有限制
"但是但是..."
我知道有人要说: "可是我看到有人用2080Ti训练模型啊!" "矿场不也是用游戏显卡挖矿的吗?"
没错,但是:
- 小模型训练≠大模型训练
- 挖矿的计算模式比较简单,大模型训练复杂得多
- 规模效应在这里是个大问题
最后的吐槽
其实这个问题让我想起了一句话: "便宜没好货,好货不便宜" 但在技术圈还要加一句: "除非你能发明出一个更好的方案"
这可能就是为什么大家都在卷自研芯片吧...
写在最后:如果你对AI硬件感兴趣,不妨点个赞关注。我是旷野,探索无尽技术!
(顺便说一句,要是谁真研究出了用消费级显卡训练大模型的方案,怕是要直接起飞...)