The CoT Collection: Improving Zero-shot and Few-shot Learning of Language Models via Chain-of-Though

最新推荐文章于 2025-12-12 18:01:47 发布

原创最新推荐文章于 2025-12-12 18:01:47 发布 · 600 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#语言模型 #人工智能 #自然语言处理

自然语言处理专栏收录该内容

29 篇文章

订阅专栏

文章介绍了TheCoTCollection，一个通过改进的链式思考流程收集和筛选的大型语言模型数据集，用于提升零样本和少量样本学习效果。研究者使用OpenAI的Codex生成高质量的推理过程（rationale），并通过C2F2模型进行二次Fine-tune，结果显示该数据集有效并增强了模型的泛化能力。

The CoT Collection: Improving Zero-shot and Few-shot Learning of Language Models via Chain-of-Thought Fine-Tuning

主打CoT，收集了海量的CoT数据，如下图所示：在这里插入图片描述
主要的收集方法依然是基于LLM生成，首先人工手写并筛选出精品CoT样例，之后以这些样例为demo，让LLM输出某个问题的推理过程（rationale），从而获得大量的带rationale的问题作为数据集。

第一步，筛选数据集，主要基于FLAN Collection，把FLAN原来1836个任务减少到了1060个，主要去掉了多语言、过长、不公开、输入输出不匹配、重复和只能产生无意义和较短CoT的任务。

第二步，构造prompt，根据作者提供的附录其实没什么新意，就是先提供多个样例，每个样例包含[Instruction and Question], [Option], [Answer], [Rationale]，最后一个Example的rationale就让LLM补全。

第三步，交给LLM，作者采用的LLM是OpenAI的Codex。作者还另外提到，在demo种把问题的label放在rationale前面对生成高质量rationale很重要，可能是因为给答案放松了对LLM解决问题的要求。

第四步，过滤生成的rationale，作者删掉了rationale中没出现答案的、太长的以及相同的。

最后，作者对生成的这些rationale进行了评估，质量评估使用了ROSCOE的13个指标，又评估了rationale的多样性，显示他们的CoT Collection是更多样化的（动词更多样）。

之后就是实验部分了，他们提出的C2F2其实就是在FLAN-T5的基础之上再做二次fine-tune，数据集就是他们收集到的CoT Collection。之后的测试则是在非训练数据集，即unseen datasets上做的，考察经过这么大的fine-tune以后模型的泛化能力如何。

在这里插入图片描述
结果表明他们的C2F2确实是最好的，而且直接用原生T5在CoT Collection上面做Fine-Tune结果也比FLAN T5要好，说明他们这个数据集更有效。

除此之外作者还做了few-shot的实验，主要是用Lora做Adaption，就不放实验结果了。

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

ShadyPi 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。