本文是LLM系列文章,针对《Truncation Sampling as Language Model Desmoothing》的翻译。
摘要
来自神经语言模型的长文本样本可能质量较差。截断采样算法(如top-p或top-k)通过在每一步将一些单词的概率设置为零来解决这一问题。这项工作为截断的目的提供了框架,并为此目的提供了一种改进的算法。我们建议将神经语言模型视为真实分布和平滑分布的混合体,以避免无限的困惑。在这种情况下,截断算法的目的是执行去平滑,估计真实分布的支持子集。找到一个好的子集至关重要:我们表明,top-p不必要地截断了高概率单词,例如,对于以Donald开头的文档,导致它截断了除Trump之外的所有单词。我们引入了 η \eta η采样,它在熵相关概率阈值以下截断单词。与以前的算法相比, η \eta
本文探讨了神经语言模型生成长文本时的质量问题,提出截断采样作为去平滑手段。现有算法如top-p存在过度截断问题,新提出的η采样在保留高概率词汇的同时,能生成更可信、多样性的长文,并在测试中表现出色。
已下架不支持订阅
841

被折叠的 条评论
为什么被折叠?



