【Chain-of-Thought 专题】Self-consistency Improves Chain Of Thought Reasoning in Language Models

本文提出Self-consistency,具体流程如下图所示:
在这里插入图片描述

人类的特点是,每个人都有不同的想法。

A salient aspect of humanity is that people think differently

因为大模型并不能很完美地进行推理,所以每次生成答案以及推理路径时,会出现错误。但是我们基于一个假设,即正确的推理过程尽管都不相同,但是都会到达最后正确的答案,且答案是一致的。基于这个想法,本文提出Self-consistency。

具体方法包括如下几个步骤:

  • 首先,随机挑选一些样本,并人工标注chain of thought;
  • 喂入大模型后,生成多个推理路径

r

i

\mathbf{r}_i

ri​,并作为candidate reasoning path集合;

  • 最后,对所有的candidate reasoning path进行汇总,得到那些更多一致的答案,即一个投票规则:

arg

max

a

i

=

1

m

I

(

a

i

=

<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值