二、大模型的能力（DataWhale大模型理论基础）

最新推荐文章于 2025-04-07 23:24:01 发布

Y_fulture

最新推荐文章于 2025-04-07 23:24:01 发布

阅读量1k

点赞数 25

分类专栏：大模型理论基础（DW组队学习）文章标签：人工智能 gpt-3 nlp

本文链接：https://blog.youkuaiyun.com/Yzy_fulture/article/details/135651742

版权

本文探讨了GPT-3在不同任务中的表现，指出其作为通用模型的优势和局限。重点讲述了如何通过适应性方法，如训练、微调和提示学习，将语言模型转化为特定任务模型。同时，文章涉及了困惑度和各种学习策略如零样本、单样本和少样本学习，以及在Questionanswering和Translation任务中的应用.

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

大模型的能力

一、概述

本节主要是通过对GPT-3论文中的基准测试深入研究，从而获得关于GPT-3更深程度的认识

我们应该知道，GPT-3的结果参差不齐：

在某些任务上，比如语言建模，GPT-3大幅度超越了现有技术的最高水平；
在其他任务上，GPT-3与训练有素，拥有大量标签数据的系统竞争时，却明显落后。

造成上述现象的原因：

GPT-3并未明确针对这些任务进行训练，它只是作为一个语言模型，被训练来预测下一个词。（也即是一个通用的模型，并未对特定问题进行特殊的训练，没有过度拟合）

想在其他任务上表现良好：

要利用大量的标签数据来适应GPT-3，并超越当前的技术水平

二、语言模型的适应性：从语言模型到人物模型的转化

语言模型 $p$ 是一种对token序列 $x_{1:L}$ 的分布

语言模型既能用来评估序列（获得特定序列出现的概率），也能够生成序列（即根据前文生成下文）

适应：指代将语言模型转化为任务模型的过程

需要以下两个输入：
- 任务的自然语言描述
- 一组训练实例（输入-输出对）
进行适应的两种方式：
- 训练（标准的有监督学习）
  - 训练一个新模型，使其能将输入映射到输出
  - 方式：
    - 通过创建一个新模型并利用语言模型作为特征（探针法）
    - 或者从现有的语言模型出发，根据训练实例进行更新（微调）
    - 或者在这两者之间找到平衡（轻量级的微调）
- 提示（上下文）学习
  - 根据对任务的描述建一个或一组提示/上下文信息，将其输入到语言模型中以获取基于该任务的生成结果。
  - 分类（提示/上下文信息的数量）
    - 零样本学习(Zero-shot)：提示/上下文信息的数量为0，模型直接基于对任务的理解输出结果。
    - 单样本学习(One-shot)：提示/上下文信息的数量为1，一般来说模型基于1个例子可以更好的理解任务从而较好的生成结果。
    - 少样本学习(Few-shot)：提示/上下文信息的数量大于1，大模型可以看到更丰富的例子，一般来说获得比单样本学习更好的效果。
关于GPT-3相关任务的关注点：
- 定义：任务是什么，以及其动机？
- 适应：我们如何通过提示将任务简化为语言模型？
- 结果：与该任务的最先进模型相比，GPT-3的定量性能如何？（结果评估）

1 Language Modeling

定义：
- 原理是什么？
  - 对于任意的词序列，它能够计算出这个序列是一句话的概率
适应：
- 询问语言模型会给这段文本分配什么概率？
结果：
- 困惑度（Perplexity）
  - 可以解释为模型在预测下一个词时的平均不确定性（即衡量模型下一个词预测准确程度的指标）
  - 简单来说，如果一个模型的困惑度较低，那么它在预测下一个词的时候就会更加准确。
语言模型会犯的两种错误以及对应错误困惑度的处理方式
- 召回错误：
  - 语言模型未能正确地为某个词符分配概率值。
  - 这种情况下，困惑度是毫不留情的。