最近,关于国内大模型初创企业“零一万物”被阿里巴巴集团收购的传闻在网络上迅速传播,引发了广泛关注。然而,零一万物于2025年1月7日凌晨发表声明,坚决否认了这一不实信息,称相关传言为恶意中伤。创始人李开复在朋友圈中也表示,零一万物在2024年确认收入超过亿元,并预言谣言会很快散去。他指出,2025年将是中国大模型技术的考验之年、应用爆发之年以及商业化淘汰之年。
看看零一万物的研发投入与收入,以及国内大模型厂家的冰与火的处境,大模型的投入大且周期长。传言各大厂家都纷纷放弃pre-traing,转向post-traing。那么什么是post-traing?为什么国内厂家都转向post-traing?
一、什么是 Post-training?预训练的“锦上添花”
要理解 Post-training,我们首先要回顾一下大模型的训练流程。通常情况下,一个大模型会经历两个主要的阶段:
-
预训练 (Pre-training): 在大规模无标注数据集上进行训练,让模型学习通用的语言表示、世界知识,就像是打通经脉,构建深厚的内功。
-
微调 (Fine-tuning): 使用少量标注数据,对预训练模型进行特定任务的适配,让模型学会如何运用内功,解决具体的问题。
而 Post-training(后期预训练),则是在预训练之后、微调之前,进行的进一步训练。它基于预训练模型,使用更大规模、更具领域性或任务相关性的数据,进一步提升模型的能力。如果说预训练是“打基础”,那么 Post-training 就是“添砖加瓦”,或者说是“锦上添花”。
形象地说,预训练像是让模型学习了一套通用的武功心法,而 Post-training 则是让模型专门修炼某一门特定的武功招式,例如针对“降龙十八掌”进行专项训练,使其威力更加强大。
二、为什么 Post-training 如此重要?
Post-training 的重要性体现在以下几个方面:
-
增强领域知识和特定任务表现: 预训练模型虽然博学,但可能不够“专精”。Post-training 可以注入特定领域知识(例如医学、法律),或者针对特定任务(例如开放域问答、代码生成)进行强化训练,显著提升模型在这些方面的表现。
-
兼顾通用性和特定任务能力: 与直接针对特定任务进行微调不同,Post-training 旨在提升模型能力的同时,尽可能保留其在通用任务上的性能,实现“一专多能”。
-
数据利用率更高: 相比于微调,Post-training 可以利用更大规模的数据,更充分地挖掘数据中的信息,进一步提升模型性能。
三、国内大模型厂家为何纷纷转向 Post-training?战略层面的考量
国内大模型厂家对 Post-training 的重视,不仅仅是出于技术层面的考虑,更是基于一系列战略因素:
-
提升模型竞争力,满足市场需求:
-
个性化定制: 不同行业、不同企业对 AI 的需求千差万别。通过 Post-training,可以针对特定场景进行模型优化,提供更精准、更具价值的服务,增强模型的市场竞争力。例如,针对金融领域的 Post-training 可以提高模型在金融文本分析、风险评估等任务上的表现。
-
提高效率和降低成本: Post-training 可以减少模型在推理过程中的计算量,提高处理速度,降低服务成本。这对于大规模部署 AI 应用至关重要。
-
-
保护知识产权,应对数据隐私:
-
避免模型泄露: 直接开放预训练模型可能存在知识产权风险。而 Post-training 可以在不暴露原始模型的情况下,将模型应用于不同的下游任务,保护核心技术资产。
-
数据隔离和安全: Post-training 可以在本地或私有云上进行,避免将敏感数据上传到公共云,满足数据隐私和安全要求。
-
-
缓解算力瓶颈,实现可持续发展:
-
降低算力需求: 相比于从头训练一个大模型,Post-training 的数据集规模通常较小,对算力的需求也相对较低。这有助于缓解当前大模型训练面临的算力瓶颈,让更多企业能够参与到大模型的开发和应用中来。
-
四、Post-training 的常用方法:殊途同归,各显神通
目前,Post-training 的常用方法主要包括:
-
持续预训练 (Continued Pre-training): 采用与预训练类似的任务和方法,但是在更具领域性或任务相关性的数据集上进行训练。
-
任务自适应预训练 (Task-Adaptive Pre-training): 针对特定任务设计预训练目标,例如针对问答任务,可以设计一个预测答案的预训练任务。
-
领域自适应预训练 (Domain-Adaptive Pre-training): 将预训练模型从通用领域迁移到特定领域,例如将一个通用语言模型迁移到医疗领域。
-
知识蒸馏 (Knowledge Distillation): 引入一个已经微调好的老师模型,将知识迁移到后期预训练的中间状态,以指导模型的优化方向。
关注公众号“AI演进”,持续学习与更新AI知识。