- 博客(1)
- 收藏
- 关注
原创 深入解析大模型推理加速技术——投机解码
这得益于一个严谨的概率校正步骤:当在第 i 个位置出现不匹配时,系统并非简单地丢弃草稿,而是根据目标模型(概率分布为 p)和草稿模型(概率分布为 q)的概率差,从一个修正后的新分布 max(0, p - q) 中进行采样,以生成该位置的最终词元。这一补偿机制,确保了即使在草稿被拒绝的情况下,整体的采样流程在统计学上依然是无偏的,从而完美保留了原始大模型的生成能力。其次,提升接受率是算法优化的永恒目标,如何在不显著增加草稿模型复杂度的前提下,使其输出分布无限逼近目标模型,仍是研究的前沿课题。
2025-09-08 11:48:32
707
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅