AI新智力 | 大模型入门17：大模型的“情商”是怎么来的

最新推荐文章于 2025-11-25 12:11:01 发布

原创最新推荐文章于 2025-11-25 12:11:01 发布 · 1k 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #deepseek #chatgpt #opencv #深度学习 #开源 #计算机视觉

深度学习拓展阅读同时被 2 个专栏收录

989 篇文章

订阅专栏

大模型专栏

293 篇文章

订阅专栏

本文来源公众号“AI新智力”，仅用于学术分享，侵权删，干货满满。

原文链接：大模型入门17：大模型的“情商”是怎么来的

“大模型在训练过程中学习了人类几乎所有已知的知识，但是大模型为什么不会输出一些不健康的文字呢？”

图大语言模型发展简史

无论哪家的大模型产品，它的回答输出内容都很阳光健康、积极向上、通情达理，没有任何的不合时宜的文字，从不输出带有暴力、歧视性的语言，“情商”极高。那它们的情商是从哪里来的呢？

在ChatGPT之前，大语言模型已经出现了很长时间，只不过一直存在于研究机构，并未向大众开放。比如OpenAI公司早在2022年3月就研究出了具有“涌现”能力的逻辑性很强的GPT3.5，但是直到2022年11月才推出了面向公众的产品ChatGPT，让“阳春白雪”走向了普通大众。这7个月的时间，OpenAI为了让普通大众使用大模型，为了让大模型从“实验品”成为真正的“产品”，OpenAI做了一件很重要的事情，那就是RLHF。

什么是RLHF

RLHF（Reinforcement Learning from Human Feedback，基于人类反馈的强化学习）是一种结合强化学习（Reinforcement Learning, RL）与人类主观判断的机器学习方法，旨在通过人类反馈优化模型输出，使其更符合人类的价值观和偏好。它被广泛应用于大语言模型（LLM）的训练（如DeepSeek、ChatGPT等），显著提升了模型输出的安全性、逻辑性和人性化程度。

也就是说，大模型在“出厂”之前必须要通过RLHF方法进行“教育”，如果输出不和谐的信息就“惩罚”，输出健康的信息就“奖励”，以杜绝大模型输出不友好的内容，其目标是为了确保AI机器与人类的意图和价值观保持一致，能够理解人类的真实意图及隐含意图。

注：RLHF在许多领域都有应用，包括但不限于个性化推荐、客户服务、教育和游戏开发。通过结合人类直觉和机器学习的强大能力，RLHF为创建更加智能和用户友好的系统提供了一种有前景的方法。这种方法特别适用于训练智能系统，尤其是那些需要与人类用户进行交互并根据用户反馈进行优化的系统。

RLHF的工作流程

监督微调：将预训练模型适应到具体的任务中。在这一阶段，模型会在利用标注过的数据集上进行训练，通过调整模型参数来优化在特定任务上的能力。

强化学习训练迭代：初始模型的生成结果需要不断发送给奖励模型进行评估，并根据奖励模型的反馈，生成其更为认可的响应。这个过程需要不断迭代，模型的性能不断提高。

图片源自：https://arxiv.org/pdf/2203.02155

如果把大模型比作人类的成长，可以分为家庭教育、教师培训、学校教育三个阶段：

1.家庭教育：预训练大模型+有标签数据监督微调

预训练大模型：

在预训练阶段是模型知识注入的最重要的阶段，通过无监督学习从这些海量文本数据中提取语言知识，大模型模型可以基于语料学习知识，学习语言结构等。例如，对于ChatGPT来说它的预训练大模型就是GPT-3。大模型先通过大量数据自学（比如读遍互联网的文本），学会基本技能，比如生成句子或识别图片。这时的大模型就像还没有上学的幼儿园新生，能做题但可能答非所问。

有标签数据的监督微调：

将预训练模型适应到具体的任务中。在这一阶段，模型会利用标注过的数据集进行训练，通过调整模型参数来优化在特定任务上的能力。把人类的偏好（例如“有礼貌”“不说废话”）变成明确的“评分标准”。也就是人类当“考官”打分，就是人工给问题（prompt）写示范回答（demonstration），然后给大模型学习：