Chapter 3: 大语言模型基础 Part 6:与模型交互的艺术——提示工程与采样参数

上一篇我们解析了 GPT 的 Decoder-Only 架构。本篇将聚焦于应用层,探讨如何通过参数调整和提示设计,让模型输出我们需要的结果。

3.2 与大语言模型交互

3.2.1 提示工程

如果我们把大语言模型比作一个能力极强的“大脑”,那么提示 (Prompt) 就是我们与这个“大脑”沟通的语言 。

(1) 模型采样参数

在使用大模型 API 时,你常会看到 Temperature、Top-p 等参数。它们的本质是通过调整模型对概率分布的采样策略,来控制输出的随机性。

Temperature (温度)

温度是控制模型输出“随机性”与“确定性”的关键参数。
传统的 Softmax 公式被修改为引入温度系数 TTT
pi(T)=ezi/T∑j=1kezj/Tp_{i}^{(T)}=\frac{e^{z_{i}/T}}{\sum_{j=1}^{k}e^{z_{j}/T}}pi(T)=j=1kezj/Tezi/T

  • 当 变小 (T→0T \to 0T0):分布变得“陡峭”。高概率项的权重被放大,模型会倾向于选择最可能的词,生成保守、重复、精准的文本。
  • 当 变大 (T→∞T \to \inftyT):分布变得“平坦”。低概率项的权重提升,模型更有可能选择不常见的词,生成多样、创新但可能不连贯的内容 。

💡 注解:参数设置指南

  • 低温度 (0 ≤ T < 0.3)严谨任务。如代码生成、数学计算、事实问答。
  • 中温度 (0.3 < T < 0.7)日常交互。如聊天机器人、邮件撰写。
  • 高温度 (0.7 < T < 2)创意任务。如写诗、头脑风暴、科幻故事。
Top-k 与 Top-p
  • Top-k:简单粗暴地“截断”。将所有词按概率排序,只保留前 kkk 个候选词,然后重新归一化概率。当 k=1k=1k=1 时,这就变成了“贪心解码”(每次只选概率最大的词)。

  • Top-p (核采样):更智能的动态截断。从高到低累加概率,直到累加和达到阈值 ppp(例如 0.9)。这组词构成候选集 。

  • 优势:相比 Top-k,Top-p 能适应不同分布的“长尾”特性。在某些语境下候选词很多,而在某些语境下很少,Top-p 能动态调整候选集的大小 。

💡 采样优先级
当同时设置这些参数时,通常的执行顺序是:温度调整 Top-k Top-p
先用温度改变分布形状,再用 Top-k 保留前几名,最后用 Top-p 在前几名中进一步筛选。


(2) 零样本、单样本与少样本提示

根据我们给模型提供示例 (Exemplar) 的数量,提示策略可分为三种。以“情感分类”任务为例:

零样本提示 (Zero-shot Prompting)

不给任何示例,直接下达指令。依赖模型强大的预训练泛化能力 。

  • 输入

文本: Datawhale的AI Agent课程非常棒!
情感:

  • 期望输出:正面
单样本提示 (One-shot Prompting)

给模型看一个完整的“问题-答案”对,展示格式和风格 。

输入示例
文本: 这家餐厅的服务太慢了。
情感: 负面
文本: Datawhale的AI Agent课程非常棒!
情感:
少样本提示 (Few-shot Prompting)

提供多个示例。这能让模型理解任务的边界和细微差别(比如什么是中性情感)。

输入示例
文本: 这家餐厅的服务太慢了。
情感: 负面
文本: 这部电影的情节很平淡。
情感: 中性
文本: Datawhale的AI Agent课程非常棒!
情感:

(3) 指令调优 (Instruction Tuning) 的影响

早期的 GPT-3 主要是“文本补全”模型,它擅长续写,但不一定听得懂命令。
现在的模型(如 ChatGPT, DeepSeek, Qwen)都经过了指令调优,能直接理解自然语言指令 。

  • 对“文本补全”模型:你需要用 Few-shot 伪造一个翻译场景,诱导它续写。
  • 对“指令调优”模型:直接说:“请将下面的英文翻译成中文:How are you?” 。

(4) 基础提示技巧

  • 角色扮演 (Role-playing)
    赋予模型特定人设(如“资深 Python 专家”),可以限定其回复的专业度、语气和知识范围 。

  • 上下文示例 (In-context Example)
    对于复杂的格式要求(如要求输出 JSON),最好的办法不是写一大堆规则,而是直接给一个例子

示例
我需要你从产品评论中提取产品名称和用户情感。请严格按照下面的JSON格式输出。

评论:这款“星尘”笔记本电脑的屏幕显示效果惊人…
输出:{"product_name": "星尘笔记本电脑", "sentiment": "混合"}

评论:我刚买的“声动”耳机音质很棒…
输出:


(5) 思维链 (Chain-of-Thought, CoT)

对于逻辑推理或多步计算问题,直接让模型给答案往往容易出错。

思维链的核心在于引导模型“一步一步地思考” (Let’s think step by step) 。

案例对比:计算胜率

问题:一个篮球队在一个赛季的 80 场比赛中赢了 60%。在接下来的赛季中,他们打了 15 场比赛,赢了 12 场。两个赛季的总胜率是多少?

如果不使用 CoT,模型可能直接瞎猜一个数字。

使用 CoT 后的输出

好的,我们来一步步计算。
第一步:计算第一个赛季赢得的比赛数。
80场×60%=48场80 \text{场} \times 60\% = 48 \text{场}80×60%=48
第二步:计算两个赛季的总比赛数和总胜利数。
总比赛数 =80+15=95= 80 + 15 = 95=80+15=95
总胜利数 =48+12=60= 48 + 12 = 60=48+12=60
第三步:计算总胜率。
总胜率 =(60/95)×100%≈63.16%= (60 / 95) \times 100\% \approx 63.16\%=(60/95)×100%63.16%
所以,两个赛季的总胜率约为 63.16%

通过显式地展示推理过程,模型不仅准确率大幅提升,其逻辑也变得可查证。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值