
在大型语言模型(LLMs)的奇妙世界中,人们往往聚焦于模型架构、数据处理和优化技术。然而像束搜索(beam search)这类对文本生成至关重要的解码策略却常被忽视。本文将深入解析 LLMs 生成文本的机制,包括贪心搜索、束搜索的工作原理,以及 top-k 采样和核采样等抽样技术。
通过本文的学习,你不仅能透彻理解这些解码策略,还会熟悉如何处理温度、 num_beams 、 top_k 和 top_p 等重要超参数。
代码链接:https://colab.research.google.com/drive/1MX8HURkinUZqwJLWvDtPg9R--X5jNSJm#scrollTo=GtExD8aU2wt3
📚 Background
让我们从一个示例开始。将文本"

订阅专栏 解锁全文
1098





