Top-K、Top-P、束搜索、温度系数交互方式

部署运行你感兴趣的模型镜像

参考文章:

Top-K vs Top-P:生成式模型中的采样策略与 Temperature 的影响-优快云博客

在生成文本时,模型为每个可能的下一个词汇分配一个概率分布,选择下一个词汇的策略直接决定了输出的质量和多样性。以下是几种常见的选择方法:
Greedy Search(贪心搜索): 每次选择概率最高的词汇。
Beam Search(束搜索): 保留多个候选序列,平衡生成质量和多样性。
Top-K 采样: 限制候选词汇数量。
Top-P 采样(Nucleus Sampling): 根据累积概率选择候选词汇,动态调整词汇集。

原理见上面的参考文章
 

在文本生成中,当同时设置 top-ptop-k 和 温度系数 并与 束搜索(beam search) 结合时,这些参数会按照分层过滤的方式协同工作。以下是它们的具体作用机制和交互流程:

一、核心参数的作用层级

  1. 温度系数(Temperature)

    • 最先应用:调整模型原始输出的 logits 分布形状

    • 公式:Pi = exp(zi/T)/\sum exp(zj/T)

    • 效果:

      • T<1:锐化分布(偏向高概率token)

      • T>1:平滑分布(增加多样性)

  2. top-k

    • 第二层过滤:保留概率最高的 k 个候选

    • 操作:

      probs = [0.4, 0.3, 0.15, 0.1, 0.05]  
      topk_probs = [0.4, 0.3, 0.15]  # 假设k=3
  3. top-p (nucleus sampling)

    • 最后一层过滤:从 top-k 结果中选取累积概率≥p的最小集合

    • 操作:

      sorted_probs = sorted([0.4, 0.3, 0.15], reverse=True)
      cumulative = [0.4, 0.7, 0.85]  # 假设p=0.8
      filtered = [0.4, 0.3]  # 0.4+0.3=0.7<0.8 → 再加0.15达到0.85
  4. 束搜索(Beam Search)

    • 最终序列选择:在过滤后的候选集上维护多条高概率路径

    • 每步保留得分最高的 B 个序列(B=束宽)

二、参数交互规则

  1. 优先级顺序
    温度调整 → top-k → top-p → 束搜索

    • 先调整分布形状,再逐步缩小候选范围

  2. 冲突处理

    • 若 top-k 与 top-p 同时设置,实际候选集是两者的交集

      candidates = top_k( temperature_adjusted_probs, k )  
      candidates = top_p( candidates, p )  # 对top-k结果再过滤
    • 极端情况:当 top-k 的候选累积概率已满足 top-p 时,top-p 不进一步过滤

  3. 束搜索的特殊性

    • 即使经过采样过滤,束搜索仍会维护多条路径(束宽B)

    • 每条路径独立进行 top-k/p 采样


 top-p采样过程

1. 关键点

  • 候选集(nucleus):通过累计概率 ≥ p 动态筛选出的token集合。

  • 概率权重:候选集内的token保持原始概率的相对比例,但会重新归一化(总和=1)。

  • 随机采样:根据重新归一化的概率分布,按概率随机选择1个token(不是直接选最高概率的)。


2. 具体选择步骤

假设概率分布(p=0.9)
Token原始概率
A0.5
B0.3
C0.1
D0.05
E0.05
  1. 排序并累计概率

    • 排序:A(0.5) → B(0.3) → C(0.1) → D(0.05) → E(0.05)

    • 累计:A(0.5) + B(0.3) + C(0.1) = 0.9(达到 p=0.9)。

    • 候选集{A, B, C}

  2. 重新归一化概率

    • 总和 = 0.5 + 0.3 + 0.1 = 0.9

    • 重新计算:

      • A: 0.5 / 0.9 ≈ 0.555

      • B: 0.3 / 0.9 ≈ 0.333

      • C: 0.1 / 0.9 ≈ 0.111

  3. 按概率随机采样1个token

    • 生成一个随机数 r ∈ [0, 1),根据概率区间选择:

      • 若 r < 0.555 → 选 A

      • 若 0.555 ≤ r < 0.555+0.333 → 选 B

      • 否则 → 选 C


3. 为什么是随机采样(而非选最高概率)?

  • 目的:保持生成多样性。如果总是选最高概率(贪婪采样),文本会过于保守和重复。

  • 对比

    • 贪婪采样:确定性,每次选 argmax(固定输出)。

    • top-p采样:随机性,按概率选择(动态调整多样性)。


4. 极端情况

  • 候选集仅1个token(例如 p 很小,或某个token概率极高):

    • 直接选择该token(退化为贪婪采样)。

  • 候选集=全部tokenp=1.0):

    • 按原始概率分布采样(完全随机,可能不连贯)。


top-k采样过程

1. top-k采样的步骤

核心思想

固定选择概率最高的 k 个token作为候选集,然后按它们的原始概率(重新归一化后)随机采样1个token。

具体流程
  1. 排序概率:对所有token按概率从高到低排序。

  2. 选择top-k:保留前 k 个概率最高的token,其余丢弃。

  3. 重新归一化:对这 k 个token的概率重新归一化(使它们的概率之和=1)。

  4. 随机采样:按归一化后的概率分布随机选择1个token。

举例

假设词汇表概率分布和 k=3

Token原始概率
A0.5
B0.3
C0.1
D0.05
E0.05
  • 步骤1-2:候选集 = {A, B, C}(原始概率和= 0.5+0.3+0.1=0.9)。

  • 步骤3:重新归一化:

    • A: 0.5/0.9 ≈ 0.555

    • B: 0.3/0.9 ≈ 0.333

    • C: 0.1/0.9 ≈ 0.111

  • 步骤4:按 [0.555, 0.333, 0.111] 的概率随机选1个token。


2. top-k vs. top-p的关键区别

特性top-k采样top-p采样
候选集大小固定 k 个token动态选择累计概率 ≥ p 的token
灵活性对长尾分布可能不灵活(如概率分布平坦时,k 可能包含低质量token)自适应分布形状,排除长尾低概率token
极端情况若 k=1,退化为贪婪采样若 p→0,退化为贪婪采样
为什么需要重新归一化?

无论是top-k还是top-p,候选集的概率和通常 <1,重新归一化是为了保证采样时概率分布的有效性。

您可能感兴趣的与本文相关的镜像

Qwen3-8B

Qwen3-8B

文本生成
Qwen3

Qwen3 是 Qwen 系列中的最新一代大型语言模型,提供了一整套密集型和专家混合(MoE)模型。基于广泛的训练,Qwen3 在推理、指令执行、代理能力和多语言支持方面取得了突破性进展

内容概要:本文介绍了一个基于多传感器融合的定位系统设计方案,采用GPS、里程计和电子罗盘作为定位传感器,利用扩展卡尔曼滤波(EKF)算法对多源传感器数据进行融合处理,最终输出目标的滤波后位置信息,并提供了完整的Matlab代码实现。该方法有效提升了定位精度与稳定性,尤其适用于存在单一传感器误差或信号丢失的复杂环境,如自动驾驶、移动采用GPS、里程计和电子罗盘作为定位传感器,EKF作为多传感器的融合算法,最终输出目标的滤波位置(Matlab代码实现)机器人导航等领域。文中详细阐述了各传感器的数据建模方式、状态转移与观测方程构建,以及EKF算法的具体实现步骤,具有较强的工程实践价值。; 适合人群:具备一定Matlab编程基础,熟悉传感器原理和滤波算法的高校研究生、科研人员及从事自动驾驶、机器人导航等相关领域的工程技术人员。; 使用场景及目标:①学习和掌握多传感器融合的基本理论与实现方法;②应用于移动机器人、无人车、无人机等系统的高精度定位与导航开发;③作为EKF算法在实际工程中应用的教学案例或项目参考; 阅读建议:建议读者结合Matlab代码逐行理解算法实现过程,重点关注状态预测与观测更新模块的设计逻辑,可尝试引入真实传感器数据或仿真噪声环境以验证算法鲁棒性,并进一步拓展至UKF、PF等更高级滤波算法的研究与对比。
内容概要:文章围绕智能汽车新一代传感器的发展趋势,重点阐述了BEV(鸟瞰图视角)端到端感知融合架构如何成为智能驾驶感知系统的新范式。传统后融合与前融合方案因信息丢失或算力需求过高难以满足高阶智驾需求,而基于Transformer的BEV融合方案通过统一坐标系下的多源传感器特征融合,在保证感知精度的同时兼顾算力可行性,显著提升复杂场景下的鲁棒性与系统可靠性。此外,文章指出BEV模型落地面临大算力依赖与高数据成本的挑战,提出“数据采集-模型训练-算法迭代-数据反哺”的高效数据闭环体系,通过自动化标注与长尾数据反馈实现算法持续进化,降低对人工标注的依赖,提升数据利用效率。典型企业案例进一步验证了该路径的技术可行性与经济价值。; 适合人群:从事汽车电子、智能驾驶感知算法研发的工程师,以及关注自动驾驶技术趋势的产品经理和技术管理者;具备一定自动驾驶基础知识,希望深入了解BEV架构与数据闭环机制的专业人士。; 使用场景及目标:①理解BEV+Transformer为何成为当前感知融合的主流技术路线;②掌握数据闭环在BEV模型迭代中的关键作用及其工程实现逻辑;③为智能驾驶系统架构设计、传感器选型与算法优化提供决策参考; 阅读建议:本文侧重技术趋势分析与系统级思考,建议结合实际项目背景阅读,重点关注BEV融合逻辑与数据闭环构建方法,并可延伸研究相关企业在舱泊一体等场景的应用实践。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值