BeamSearch的原理和实现

最新推荐文章于 2025-03-20 15:43:08 发布

Vinsmoke -Hou

最新推荐文章于 2025-03-20 15:43:08 发布

阅读量2.9k

点赞数 6

分类专栏：深度学习 pytorch 文章标签：自然语言处理机器学习深度学习

本文链接：https://blog.youkuaiyun.com/one_super_dreamer/article/details/120134948

版权

深度学习同时被 2 个专栏收录

18 篇文章

订阅专栏

pytorch

7 篇文章

订阅专栏

本文详细介绍了BeamSearch的概念，作为一种优化seq2seq模型输出的算法，它介于贪心搜索和全概率计算之间。通过设定束宽（Beamwidth）来平衡搜索效率和结果质量。文章讲解了如何使用堆数据结构实现BeamSearch，通过不断保留概率最高的若干条路径，直至找到最优解。此外，还展示了 Beamwidth=3 的例子以加深理解。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

目标
一、Beam Search的介绍
二、Beam search的实现
- 2.1.数据结构-堆-的认识
- 2.2. 使用堆来实现beam search

目标

1.知道beam search的概念和原理
2. 能够在代码中使用Beam search完成预测过程

提示：以下是本篇文章正文内容，下面案例可供参考

一、Beam Search的介绍

在进行模型评估的过程中，每次我们选择概率最大的token id作为输出，那么整个输出的句子的概率就是最大的嘛？
在这里插入图片描述
Beam search有被称为束集搜索，是一种在seq2seq中用来优化输出结果的算法（不在训练过程中使用）。
例如：传统的获取解码器输出的过程中，每次只选择概率最大的那个结果，作为当前时间步的输出，等到输出结束，我们会发现，整个句子可能并不通顺，虽然在每一个时间步上的输出确实是概率最大的，但是整体的概率却不一定最大，我们经常把它叫做greedy search[贪心算法]。
为了解决上述的问题，可以考虑计算全部的输出概率乘积，选择最大的那一个，但是这样的话，意味着如果句子很长，候选词很多，那么需要保存的数据就会很大，需要计算的数据量就很大。
那么Beam Search就是介于上述两种方法的一种方法，假设Beam width = 2，表示每次保存的最大的概率的个数，这里每次保存两个，在下一个时间步骤同样保留两个，这样就可以达到约束搜索空间大小的目的，从而提高算法的效率。
beam width = 1时，就是贪心算法，beam width=候选词的时候，就是计算全部的概率。beam width是一个超参数。
比如在下图中：
使用一个树状图来表示每个time step的可能输出，其中的数字表示是条件概率
黄色箭头表示的是一种greed search，概率并不是最大的
如果把beam width设置为2，刚开始的时候保存(A,B)，在第二次分类的时候从（AA，AB，BA，BB）中选择两个最大的为（AB，BB），在第三层的中从（ABA，ABB，BBA，BBB）中选择两个最大的为（ABB，BBB）。那么后续就可以找到绿色路径的结果，这个结果是最大的。
在这里插入图片描述
下图在给出beam width=3的例子

首先输出start token <s>，然后得到四个输出（这里假设一个就是四个输出：x,y,z,</s>），选择概率最大的三个，x,y,w
然后分别把x,y,z放到下一个time step中作为输入，分别得到三个不同的输出，找到三个输出中概率最大的三个，x,y,y
继续重复上述步骤，知道获得结束符（概率最大）或者是达到句子的最大长度，那么此时选择概率乘积最大的一个。
拼接整个路径上概率最大的所有结果，比如这里可能是<s>,y,y,x,w,</s>

二、Beam search的实现

在上述描述的思路中，我们需要注意以下几个内容：

数据该如何保存，每一次的输出的最大的beam width个结果，和之后之前的结果该如何保存
保存了之后的概率应该如何比较大小，保留下概率最大三个
不能够仅仅只保存当前概率最大的信息，还需要有当前概率最大的三个中前面路径的输出结果

2.1.数据结构-堆-的认识

对于上面所说的，保留有限个数据，同时需要根据大小来保留，可以使用一种带有优先级的数据结构来实现，这里我们可以使用堆这种数据结构。
堆是一种优先级的队列，但是它其实并不是队列，我们常说的队列都是先进先出或者先进后出，但是堆只根据优先级的高低来去取出数据。和堆在一起的另外一种数据结构叫做栈，它有入栈和出栈的操作，可以理解为是一种先进后出的数据结构。
在python自带的模块中，有一个焦作heapq的模块，提供了堆所有的方法。
在这里插入图片描述
可以发现，输出的顺序并不是数据插入的顺序，而是根据其优先级，从小往大pop（False<True）。