本文提出Self-consistency,具体流程如下图所示:
人类的特点是,每个人都有不同的想法。
A salient aspect of humanity is that people think differently
因为大模型并不能很完美地进行推理,所以每次生成答案以及推理路径时,会出现错误。但是我们基于一个假设,即正确的推理过程尽管都不相同,但是都会到达最后正确的答案,且答案是一致的。基于这个想法,本文提出Self-consistency。
具体方法包括如下几个步骤:
- 首先,随机挑选一些样本,并人工标注chain of thought;
- 喂入大模型后,生成多个推理路径
r
i
\mathbf{r}_i
ri,并作为candidate reasoning path集合;
- 最后,对所有的candidate reasoning path进行汇总,得到那些更多一致的答案,即一个投票规则:
arg
max
a
∑
i
=
1
m
I
(
a
i
=
<