【Chain-of-Thought 专题】Self-consistency Improves Chain Of Thought Reasoning in Language Models

最新推荐文章于 2024-12-04 13:28:17 发布

2401_84264536

最新推荐文章于 2024-12-04 13:28:17 发布

阅读量714

点赞数 25

文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.youkuaiyun.com/2401_84264536/article/details/140571292

版权

本文提出Self-consistency，具体流程如下图所示：
在这里插入图片描述

人类的特点是，每个人都有不同的想法。

A salient aspect of humanity is that people think differently

因为大模型并不能很完美地进行推理，所以每次生成答案以及推理路径时，会出现错误。但是我们基于一个假设，即正确的推理过程尽管都不相同，但是都会到达最后正确的答案，且答案是一致的。基于这个想法，本文提出Self-consistency。

具体方法包括如下几个步骤：

首先，随机挑选一些样本，并人工标注chain of thought；
喂入大模型后，生成多个推理路径

\mathbf{r}_i

ri，并作为candidate reasoning path集合；

最后，对所有的candidate reasoning path进行汇总，得到那些更多一致的答案，即一个投票规则：

arg

⁡

max

⁡

∑

(

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

2401_84264536

关注关注

25
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

解锁LLMs的“思考”能力：Chain-of-Thought(CoT) 技术推动复杂推理的新发展

丨汀、的博客

06-14

1753

解锁LLMs的“思考”能力：Chain-of-Thought(CoT) 技术推动复杂推理的新发展

【理论篇】论文解读《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》

最新发布

大F子的智能小课

02-27

108

我们探索了生成思维链——一系列中间推理步骤——如何显著提高大型语言模型执行复杂推理的能力。特别是，我们展示了这种推理能力如何通过一种名为思维链提示的简单方法，自然地出现在足够大的语言模型中，其中在提示中提供了一些思维链演示作为范例。在三个大型语言模型上的实验表明，思维链提示提高了在各种算术、常识和符号推理任务上的性能。经验上的增益可能很显著。

参与评论您还未登录，请先登录后发表或查看评论

论文阅读：Self-Consistency Improves Chain of Thought Reasoning in Language Models

温染的笔记

05-14

2522

提出了自我一致性方法，先使用思维链 prompt，然后通过采样等手段获取多条输入，汇总答案（根据投票以及加权等方式），并选择最一致的答案。该方法受限于固定的答案集，并且计算成本较高（多条输出、推理路径）。但在算术和常识推理任务上能够提高准确性。

一致性思维链（SELF-CONSISTENCY IMPROVES CHAIN OF THOUGHT REASONING IN LANGUAGE MODELS）

WitsMakeMen的专栏

09-21

1148

思维链已经在很多任务上取得了非常显著的效果，这篇论文中提出了一种 self-consistency 的算法，来代替贪婪解码算法。本方法通过采样多个思维链集合，然后LLM模型生成后，选择一个最一致的答案作为最后的结果。一致性思维链认为复杂的推理问题，有不同的思维方式去解决，从而得到最终唯一答案。经过实验验证，一致性思维链取得了显著的提升。

论文翻译 | SELF-CONSISTENCY IMPROVES CHAIN OF THOUGHTREASONING IN LANGUAGE MODELS 自洽性提高了语言模型的思维链推理能力(上）

m0_49651195的博客

09-26

1129

特别是，当与PaLM-540B或GPT-3一起使用时，自一致性在算术推理任务中实现了新的最先进的性能水平，包括GSM8K (Cobbe等人，2021)(+17.9%的绝对精度增益)，SVAMP (Patel等人，2021)(+11.0%)，AQuA (Ling等人，2017)(+12.2%)，以及常识推理任务，如StrategyQA (Geva等人，2021)(+6.4%)和ARCchallenge (Clark等人，2018)(+3.9%)。更详细地说，假设生成的答案ai来自一个固定的答案集，

论文翻译 | SELF-CONSISTENCY IMPROVES CHAIN OF THOUGHTREASONING IN LANGUAGE MODELS 自洽性提高了语言模型的思维链推理能力(下）

m0_49651195的博客

09-26

994

我们进行了一系列实验，在一系列推理基准上比较了所提出的自一致性方法与现有方法。我们发现自一致性大大提高了所考虑的每个语言模型的推理精度，跨越了广泛的模型尺度。任务和数据集。我们在以下推理基准上评估自一致性。3•算术推理。对于这些任务，我们使用了Math Word Problem Repository (KoncelKedziorski等人，2016)，包括AddSub (Hosseini等人，2014)、MultiArith (Roy & Roth, 2015)和ASDiv (Miao等人

Active Prompting with Chain-of-Thought for Large Language Models

aikun315的博客

11-16

1099

随着大型语言模型（LLM）规模的不断扩大，它们在许多需要推理的复杂任务（如算术和常识推理）中展现出新的能力。已知，任务特定的提示设计对于提升LLM生成高质量答案的能力至关重要。尤其是在复杂的问答任务中，一种有效的方法是基于示例的链式思维（Chain-of-Thought, CoT）推理，这显著提升了LLM的表现。然而，目前的CoT方法依赖于一组固定的人工标注示例，这些示例并不一定是适用于不同任务的最佳示例。

ICLR 2023 | Self-Consistency: Google超简单方法改善大模型推理能力

hxshine的博客

07-04

2630

论文地址：https://arxiv.org/abs/2203.11171大模型（10B以上）生成结果的多样性diversity和质量比较好。本文的一大特点是没有利用不同的多个模型来集成，而是只用当个大模型采样输出不同的推理路径和结果来集成，有一个现象就是随着模型size的变大，集成的效果越来越高，说明大size的模型（一般要求要10B以上），其多样性diversity足够好，同时其生成的答案的质量也有保障，所以最终融合的效果才会比较好。可以将其当作是一种生成高质量训练数据的方法。

思维链（Chain-of-Thought, CoT）和自一致提示（Self-Consistency）

大多_C的博客

09-04

2339

思维链提示（CoT）：帮助模型逐步推理问题的每一步，适合需要多步骤推理的问题。自一致提示：通过多次推理采样并聚合结果，进一步增强了推理的准确性和一致性，特别适合应对复杂推理任务。

Language Model Reasoning

zenRRan的博客

02-20

1242

来自：天宏NLP作者：tianhongzxy自从那篇著名的《Chain of Thought Prompting Elicits Reasoning in Large Language Models》发布以来，一下子引爆了使用 Large Language Models (LLMs) 做推理任务的热潮。同时，越来越多的研究者开始深挖 LLMs 的各种能力。其中，推理能力作为一种可能的“象征着真正的...

大模型-自洽性（Self-Consistency）

09-25

2654

在训练过程中采用一致性增强技术，如对比学习、多任务学习等。推理和生成中使用自洽推理策略，如温度调节、束搜索等。校准模型输出和进行一致性验证，保证逻辑上不产生矛盾。利用模型集成和投票机制，增强预测结果的一致性。跨模态应用中进行模态对齐，确保不同输入模态的自洽性。这些方法可以帮助提高AI系统的稳定性和可靠性，确保其在处理复杂任务时前后一致。

【LLM 论文】Self-Consistency — 一种在 LLM 中提升 CoT 表现的解码策略

VLyb

04-20

5692

Self-Consistency：一种在 LLM 中提升 CoT 表现的解码策略

Multimodal Chain-of-Thought Reasoning in Language Models语言模型中的多模态思维链推理

Mars_prime的博客

12-18

2471

大型语言模型 (LLM) 通过利用思维链 (CoT) 提示生成中间推理链作为推断答案的基本原理，在复杂推理方面表现出了令人印象深刻的性能。然而，现有的 CoT 研究主要集中在语言情态上。我们提出了 Multimodal-CoT，它将语言（文本）和视觉（图像）模态合并到一个两阶段框架中，将基本原理生成和答案推理分开。通过这种方式，答案推理可以更好地利用基于多模态信息生成的基本原理。

大语言模型应用指南：SelfConsistency

AI天才研究院

06-15

637

1. 背景介绍随着人工智能技术的不断发展，大语言模型在自然语言处理领域取得了巨大的成功。然而，大语言模型的应用仍然面临着一些挑战，其中之一就是如何提高模型的Self-Consistency。Self-Consistency是指模型在不同任务和数据集上的表现一致性，它对于模型的泛化能力和可靠性至关重要。在这篇文章中，我们将探讨大语言模型应用中的Sel

大模型思维链（Chain-of-Thought）技术原理

2401_85343303的博客

12-04

3263

本篇文章主要是介绍了 CoT 以及后续的改进，目前从推特上观察，CoT已经被广泛应用，甚至很多人认为就是标准的做法。但国内来看，似乎缺乏对它的重视，觉得不过是个简单的 trick。其实不只是 CoT，对整体 LLM 的认知和谷歌、OpenAI 那边确实有些差距。至于为何，Jason Wei 那条推特一定程度说明问题，知乎上也有人把他删掉的推特截图放出来，大致意思是20年后入门 NLP 的人比之前的幸福，他们对 LM 的认知来自于强大的 LLM，而过去的人往往还停留在 BERT 的范式。

【论文阅读】Learning to Retrieve Reasoning Paths over Wikipedia Graph for Question Answering

没有胡子的猫Asimov

07-10

473

Learning to Retrieve Reasoning Paths over Wikipedia Graph for Question Answering 论文：https://arxiv.org/abs/1911.10470 代码：https://github.com/AkariAsai/learning_to_retrieve_reasoning_paths 学习在维基百科中检索问题的推理路径基于推理路径任务从维基百科中提取推理路径实现多轮问答。多轮问答：需要结合多篇文档的“

PCC-pytorch实现：预测一致性与曲率的深度学习模型

PCC-pytorch是一个基于PyTorch框架的机器学习项目，其目的是实现论文中提到的“预测，一致性，曲率”（Predictive Coding, Consistency, Curvature）的概念。该研究工作是在越南河内的VinAI Research团队驻地期间...