太难了,累懵了,全是坑...
最近没更新,其实有机会(怎么个机会不细说了)可以玩玩两台新出炉的H100,而且是8卡400G IB的,这两台估计已经超过了库里南的价格了, 极其的豪华...


因为我正好没看《乡村爱情15》,我买了个youku会员,可以边看《乡村爱情15》边拿H100跑一跑训练,看看具体怎么个实力。
但是时间有限啊,主要是成本,那好钢要用在刀刃上,所以我在考虑用什么来测试它, 我没玩过megatron,deepspeed又弄过了,所以我挑战了一下Colossal,然后就被一顿教育...
怎么说呢?东西是好东西,应该是我看过的集预制能力和自由度为一体的好项目,正好集合了megatron和deepspeed的优点,可是这代码质量和维护项目的速度真的是...
具体的细节我后面会再写一篇文章写,也不是单独针对Colossal的,因为像分布式训练的一些基础,我觉得非常有必要深入浅出的多写几篇文章才能说明白,估计TP,PP,DDP,Gemini,Zero,1D, 2D, 2.5D,3D,每个概念都够水一篇文章的了

本文通过作者使用ColossalAI在两台配备H100显卡的设备上进行预训练的经验,介绍了ColossalAI的优缺点。文章以Llama2模型为例,详细阐述了预训练的三个步骤:扩充词表、加载预训练模型和整理数据格式,并分享了遇到的问题及解决办法。最后,作者建议对环境要求较高的用户选择Deepspeed。
最低0.47元/天 解锁文章
3069

被折叠的 条评论
为什么被折叠?



