大模型中的post-traing是什么？为什么国内厂家都转向post-traing？

原创已于 2025-01-08 10:23:57 修改 · 1.7k 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #深度学习 #机器学习 #大模型 #算法 #agi

于 2025-01-08 10:17:38 首次发布

AIGC 专栏收录该内容

65 篇文章

订阅专栏

最近，关于国内大模型初创企业“零一万物”被阿里巴巴集团收购的传闻在网络上迅速传播，引发了广泛关注。然而，零一万物于2025年1月7日凌晨发表声明，坚决否认了这一不实信息，称相关传言为恶意中伤。创始人李开复在朋友圈中也表示，零一万物在2024年确认收入超过亿元，并预言谣言会很快散去。他指出，2025年将是中国大模型技术的考验之年、应用爆发之年以及商业化淘汰之年。

看看零一万物的研发投入与收入，以及国内大模型厂家的冰与火的处境，大模型的投入大且周期长。传言各大厂家都纷纷放弃pre-traing，转向post-traing。那么什么是post-traing？为什么国内厂家都转向post-traing？

一、什么是 Post-training？预训练的“锦上添花”

要理解 Post-training，我们首先要回顾一下大模型的训练流程。通常情况下，一个大模型会经历两个主要的阶段：

预训练 (Pre-training)： 在大规模无标注数据集上进行训练，让模型学习通用的语言表示、世界知识，就像是打通经脉，构建深厚的内功。
微调 (Fine-tuning)： 使用少量标注数据，对预训练模型进行特定任务的适配，让模型学会如何运用内功，解决具体的问题。

而 Post-training（后期预训练），则是在预训练之后、微调之前，进行的进一步训练。它基于预训练模型，使用更大规模、更具领域性或任务相关性的数据，进一步提升模型的能力。如果说预训练是“打基础”，那么 Post-training 就是“添砖加瓦”，或者说是“锦上添花”。

形象地说，预训练像是让模型学习了一套通用的武功心法，而 Post-training 则是让模型专门修炼某一门特定的武功招式，例如针对“降龙十八掌”进行专项训练，使其威力更加强大。

二、为什么 Post-training 如此重要？

Post-training 的重要性体现在以下几个方面：

增强领域知识和特定任务表现： 预训练模型虽然博学，但可能不够“专精”。Post-training 可以注入特定领域知识（例如医学、法律），或者针对特定任务（例如开放域问答、代码生成）进行强化训练，显著提升模型在这些方面的表现。
兼顾通用性和特定任务能力： 与直接针对特定任务进行微调不同，Post-training 旨在提升模型能力的同时，尽可能保留其在通用任务上的性能，实现“一专多能”。
数据利用率更高： 相比于微调，Post-training 可以利用更大规模的数据，更充分地挖掘数据中的信息，进一步提升模型性能。

三、国内大模型厂家为何纷纷转向 Post-training？战略层面的考量

国内大模型厂家对 Post-training 的重视，不仅仅是出于技术层面的考虑，更是基于一系列战略因素：

提升模型竞争力，满足市场需求：
- 个性化定制： 不同行业、不同企业对 AI 的需求千差万别。通过 Post-training，可以针对特定场景进行模型优化，提供更精准、更具价值的服务，增强模型的市场竞争力。例如，针对金融领域的 Post-training 可以提高模型在金融文本分析、风险评估等任务上的表现。
- 提高效率和降低成本： Post-training 可以减少模型在推理过程中的计算量，提高处理速度，降低服务成本。这对于大规模部署 AI 应用至关重要。
保护知识产权，应对数据隐私：
- 避免模型泄露： 直接开放预训练模型可能存在知识产权风险。而 Post-training 可以在不暴露原始模型的情况下，将模型应用于不同的下游任务，保护核心技术资产。
- 数据隔离和安全： Post-training 可以在本地或私有云上进行，避免将敏感数据上传到公共云，满足数据隐私和安全要求。
缓解算力瓶颈，实现可持续发展：
- 降低算力需求： 相比于从头训练一个大模型，Post-training 的数据集规模通常较小，对算力的需求也相对较低。这有助于缓解当前大模型训练面临的算力瓶颈，让更多企业能够参与到大模型的开发和应用中来。

四、Post-training 的常用方法：殊途同归，各显神通

目前，Post-training 的常用方法主要包括：

持续预训练 (Continued Pre-training)： 采用与预训练类似的任务和方法，但是在更具领域性或任务相关性的数据集上进行训练。
任务自适应预训练 (Task-Adaptive Pre-training)： 针对特定任务设计预训练目标，例如针对问答任务，可以设计一个预测答案的预训练任务。
领域自适应预训练 (Domain-Adaptive Pre-training)： 将预训练模型从通用领域迁移到特定领域，例如将一个通用语言模型迁移到医疗领域。
知识蒸馏 (Knowledge Distillation)： 引入一个已经微调好的老师模型，将知识迁移到后期预训练的中间状态，以指导模型的优化方向。

关注公众号“AI演进”，持续学习与更新AI知识。