作者 | 山竹
出品 | 锌产业
在生成式AI进入全球视野的第四年,大模型竞赛在2025年正式进入下半场,下半场考验的能力从模型训练转向工程能力。
或者说,工程实践能力推动的大模型应用落地,在这时成了继模型训练后的第二战场。
在这一新战场,模型推理的重要性开始凸显,“模型算子化”、“模型即服务”逐渐成为常态,大模型正在由此规模化迈入企业AI,并藉由此改变着社会运转的底层逻辑。
这时,没有人再怀疑大模型的重要性,就像没有人会怀疑互联网改变了人类生活方式一样。
而就在大模型又一次改变人类生活方式之前,每个人都值得花几分钟对这项颠覆性技术有一个基本认知。
我是在最近的阿里云PolarDB数据库开发者大会上,又一次听到了郑纬民院士的演讲。
这一次,郑纬民院士在演讲中通过五个环节总结了大模型全生命周期——数据获取、数据预处理、模型训练、模型微调、模型推理。
这五个环节,也是我们认清大模型的开始。
1
数据获取
大模型是数据喂出来的。
关于大模型,这是我这两年听到最多的解释。
所谓大模型,就是先有大数据、再有大算力,然后才有大模型。
大模型在训练过程中首先需要收集海量的多模态数据,这些数据来自世界各地,通过将这些数据收集上来并放到一个系统中,这是“造”出大模型的第一步。
在此过程中,这些海量数据涉及到的文件数量多达数百亿,这数百亿个小文件要存储在硬盘中,这其中,哪个小文件放在硬盘的哪个位置需要被记住,这就是元数据。
海量小文件存储过程中面临着一个挑战,那就是元数据的管理:
首先,存储100亿个小文件需要管理7TB元数据,这就要求数据库有足够的扩展性,也就是要让数据能“放得下”;
其次,典型大模型要求访问延时在百微秒级,这对系统的延时提供了很高的要求,也就是让数据能“读得快”。
现有的诸如HDFS、Lustre元数据集中式管理架构访问延时低(读得快),但无法横向扩展(放不下),而CephFS这样的元数据分布式管理架构可横向扩展(放得下),但访问延时高(读不快)。
我们现在需要一个方法,既让数据能“放得下”,也要能被“读得快”。
郑纬民院士团队研发的分布式文件系统SuperFS,在国产超算鹏城云脑II上特别针对海量小文件场景进行了优化,从而实现了快速读写和可扩展性。
2
数据预处理
数据预处理是第二环节。
在拿到数据后,模型在训练之前,还需要对这些数据进行预处理,以获得高质量的样本数据。
由于从两个不同地方获取到的数据可能存在数据重复等问题,这就需要对这些数据进行预处理,需要去除重复数据、需要去除数据中的广告内容,还需要数据格式统一。
以OpenAI的GPT-4训练为例:
业界推测,GPT-4参数量高达1.8万亿,模型训练过程中,使用了约2.5万块A100 GPU,模型训练周期为90-100天(3-4个月),然而整个数据预处理耗时预计在半年左右。
在这方面,GPT-4并不是独一份。
据谷歌数据中心统计,在大模型训练过程中,30%的时间花在了数据预处理上。
与此同时,微软也分析了9种常见模型,据悉,在分析的这些模型中,数据预处理最多占用了65%的模型训练时间。
因而,数据预处理是一件相当耗时耗力的事儿。
那么,为什么数据预处理这么慢呢?
这是因为如今的数据处理面临着两方面的挑战:
第一,已有数据处理方法通常以计算为中心,将需要预处理的数据搬移到进行计算任务的节点上;
第二,需要处理的数据往往分散在多个节点上,读取远端节点的数据往往又会引入很大的网络开销。
有没有什么方法可以解决这两个问题呢?
答案是,有的。
那就是将数据处理方法改为以数据为中心,将计算任务搬到数据节点上。
将计算任务动态地根据其需要的数据调度到数据所在的节点上,从分布系统的数据读入转换为从本地文件系统读入。
具体到生产环境中,目前业界在进行数据处理时使用最多的是Spark软件,由于用的人多,生态就好,在可扩展性、容错性上都有不错的表现,然而,Spark依然存在两个缺点:
第一 ,Spark是在2009年诞生于加州伯克利大学分校AMP实验室,软件以Java语言编写,处理速度较慢;
第二,大数据处理为内存计算模式,需要将数据放在内存上,这些内存大小往往是被处理数据大小的20倍,内存往往很贵,这直接导致数据处理过程往往开销很大。
基于以数据为中心的执行模式,郑纬民院士团队研发了诸葛弩大数据处理引擎,通过基于C++ RDD编程接口,供性能工程师编写高性能计算模块,并将此嵌入到PySpark预处理管线中,兼容PySpark编程接口和生态。
3
模型训练
第三个环节是模型训练。
模型训练过程涉及诸多算法和技术,这其中普遍存在两个问题:
第一,GPU的存储容量难以满足大模型训练的存储需求。
GPU已经成为大模型训练的主要硬件,但GPU存储容量小且增长缓慢,与此同时,GPU存算资源强耦合,存算资源只能等比扩展,当存储容量不足时,就需要买卡,这就会导致算力冗余、存力不足的问题。
第二,GPU大规模集群的容错问题。
大模型训练需要的算力难以通过单一GPU提供,万卡集群、十万卡集群已经成为基础大模型训练的必备条件。
然而,即便是业界领先的神威平台,十万卡组成的集群训练万亿参数量模型时,训练过程中,平均每小时也会发生一次软硬件错误。
这已经是世界先进水平。
那么,这个问题又该如何解决呢?
这就需要在模型训练过程中设置模型参数检查点:
在模型训练到40分钟时主动停下来,将当前的软硬环境存储到系统中,然后继续进行模型训练。
当模型训练到1小时报错时,将此前在40分钟时存储下来的软硬件环境提取出并继续进行模型训练。
以此类推。
这一模式看似逻辑简单,但却存在另一个问题——写检查点需要耗费大量时间,未经优化时,一次检查点的存储需要3小时。
这就需要通过分布式检查点存储,将数据均匀分布到所有参与并行计算的节点,每个节点只需要存储分配到该节点的部分数据。
经过这样的架构调整,十万亿参数量模型一次检查点存储的时间就被缩短到了10分钟。
4
模型微调
第四个环节是模型微调。
经过模型训练后,训练出的就是传说中的基础大模型,相当于现在的DeepSeek V3,拿到基础大模型对于大多数商业场景而言,并不意味着就可以直接使用,还需要进行模型微调才能真正被应用到产业中。
如果直接将基础大模型应用到诸如医疗、金融等场景中,实际使用效果并不如人意,这是因为训练基础大模型用到的数据是来自互联网的通识数据,这些数据无法形成某一行业的专业知识,因而无法处理专业领域的问题。
以医疗场景为例,基础大模型要应用到医院场景,就需要收集医院场景的数据,对基础大模型进行第二次训练,由此才能得到医院大模型。
如果还要应用到更垂直的应用领域,例如B超检测,还可以基于B超检测的数据进行第三次训练,第四次训练……
依次类推,我们就可以得到一个垂直细分领域应用的大模型。
5
模型推理
第五个环节,也是最后一个环节是模型推理。
GPU显存容量往往难以满足大模型推理需求,为此,业界也出现了针对推理场景特别研发的推理芯片。
例如2024年2月,谷歌前员工创立的AI芯片创企Groq,就曾凭借基于自研LPU芯片运行的大模型推理任务,速度堪比英伟达GPU的10倍。
推理卡对存储同样有着很高的要求,推理卡的存储器主要会存放两类数据,一类是模型训练完的参数,另一类是模型推理过程KV-cache。
这其中,尤以KV-cache占用存储空间大。
以万亿参数规模模型为例:
模型(参数)大小为2TB,需要26张GPU存储参数;
模型KV-cache大小为7TB,需要86张GPU存储相关推理过程。
推理卡的存储器如果不够大,将会直接影响模型推理效果。
那么,如何提升模型推理过程中的存储容量,进而提升模型效果?
由于推理卡是插在服务器上,服务器原本就有CPU和存储器,在推理过程中,服务器上的CPU和存储器通常处于闲置状态。
如果能将这些处于闲置状态的CPU和存储器利用起来,来存储KV-cache,自然就能提升模型推理效果,模型推理性能至少能因此提升2倍。
这就是存储一体的分离式KV-cache设计逻辑。
Kimi作为2024年国内大模型创业公司中跑出的一匹黑马,一经破圈,曾连续五次算力扩容却仍经历了服务器过载宕机。
那么,Kimi后来是如何进行模型推理架构调整,进而平稳承载流量洪峰的呢?
这其中的核心逻辑是以存换算。
以大模型辅助读论文场景为例:
第一个用户向Kimi提问:请总结一下这篇论文。
第二个用户向Kimi提问:这篇论文的关键创新点是什么?
依次类推,这样一篇论文可能会有10-20万用户查询和提问。
如果以传统推理过程来看,这就意味着这10-20万用户的KV-cache都要存起来。
这时,如果仅仅是将共享可复用部分的KV-cache存下来进行多次复用,不同部分不再存储,而是改由实时计算,这样就实现了以存换算,大幅降低了算力开销。
数据获取——数据预处理——模型训练——模型微调——模型推理,这五个环节构成了大模型的全生命周期。
对于中国算力产业而言,这其中的万卡集群构建和异构卡联合训练,是如今我们面临的两大难题。
零基础入门AI大模型
今天贴心为大家准备好了一系列AI大模型资源,包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
有需要的小伙伴,可以点击下方链接免费领取【保证100%免费
】
1.学习路线图
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
2.视频教程
网上虽然也有很多的学习资源,但基本上都残缺不全的,这是我自己整理的大模型视频教程,上面路线图的每一个知识点,我都有配套的视频讲解。
(都打包成一块的了,不能一一展开,总共300多集)
3.技术文档和电子书
这里主要整理了大模型相关PDF书籍、行业报告、文档,有几百本,都是目前行业最新的。
4.LLM面试题和面经合集
这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集
5.免费获取
这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码或者点击以下链接都可以免费领取【保证100%免费】