大家好,我是小S,一枚提前“上岸”的实习生——学校放假早,运气不错,实习抢到了速珀云大模型微调的坑位。今天想聊聊这段初探大模型微调的经历,自己的血泪史,希望能帮后来的小伙伴避避坑。
过年DeepSeek爆火,大模型微调的名头随处可见。但作为一个学生党,拦路虎永远是——算力。毕竟我自己的电脑只是区区 1060,以前可是霸榜过 Steam 排行榜的超级显卡;然而,面对动辄数十GB显存需求的大模型?它连加载都成问题。
云平台选择
作为实习生,我的“天然优势”就是能快速接入公司自建的AI云平台,关键的是,居然让我薅到了4090的羊毛! 平台上有专门的 “限时特价区”,价格对实习生钱包极其友好(划重点:这个活动目前长期有效!),从连模型都加载不了的1060,到拥有24GB显存的RTX 4090,这算力跃迁,堪称降维打击。

我这里租用的是 6 卡,穷怕了,怕显存不够给干崩溃了,因为全参微调真的很吃显存。

> 注意:这个平台的 AI 镜像是支持 LLaMA-Factory 的,就相当于你只要选了 PyTorch 的 2.4 版本以上的镜像,然后只需要启动实例,就可以在控制台的实例列表中找到 LLaMA-Factory 的入口了。


最低0.47元/天 解锁文章
1034

被折叠的 条评论
为什么被折叠?



