解密prompt系列43. LLM Self Critics

最新推荐文章于 2025-12-26 21:33:57 发布

转载最新推荐文章于 2025-12-26 21:33:57 发布 · 95 阅读

文章标签：

1.解密Prompt系列8. 无需训练让LLM支持超长输入:知识库 & unlimiformer & PCW & NBCE2023-06-13 2.解密Prompt系列6. lora指令微调扣细节-请冷静,1个小时真不够~2023-04-29 3.解密Prompt7. 偏好对齐RLHF-OpenAI·DeepMind·Anthropic对比分析2023-05-23 4.解密prompt系列5. APE+SELF=自动化指令集构建代码实现2023-04-10 5.解密Prompt系列4. 升级Instruction Tuning：Flan/T0/InstructGPT/TKInstruct2023-03-26 6.解密Prompt系列3. 冻结LM微调Prompt: Prefix-Tuning & Prompt-Tuning & P-Tuning2023-03-10 7.解密Prompt系列2. 冻结Prompt微调LM： T5 & PET & LM-BFF2023-02-24 8.解密Prompt系列1. Tunning-Free Prompt：GPT2 & GPT3 & LAMA & AutoPrompt2023-02-10 9.解密Prompt系列9. 模型复杂推理-思维链COT基础和进阶玩法2023-06-16 10.解密Prompt系列14. LLM Agent之搜索应用设计：WebGPT & WebGLM & WebCPM2023-09-01 11.解密Prompt系列10. 思维链COT原理探究2023-07-01 12.解密Prompt系列11. 小模型也能COT-先天不足后天来补2023-07-15 13.解密Prompt系列12. LLM Agent零微调范式 ReAct & Self Ask2023-07-28 14.解密Prompt系列13. LLM Agent-指令微调方案: Toolformer & Gorilla2023-08-17 15.解密Prompt系列15. LLM Agent之数据库应用设计：DIN & C3 & SQL-Palm & BIRD2023-09-16 16.解密Prompt系列16. LLM对齐经验之数据越少越好？LTD & LIMA & AlpaGasus2023-10-05 17.解密Prompt系列17. LLM对齐方案再升级 WizardLM & BackTranslation & SELF-ALIGN2023-10-14 18.解密Prompt系列18. LLM Agent之只有智能体的世界2023-10-28 19.解密Prompt系列19. LLM Agent之数据分析领域的应用：Data-Copilot & InsightPilot2023-11-19 20.解密Prompt系列20. LLM Agent之再谈RAG的召回多样性优化2023-12-03 21.解密Prompt系列21. LLM Agent之再谈RAG的召回信息密度和质量2023-12-18 22.解密Prompt系列22. LLM Agent之RAG的反思：放弃了压缩还是智能么？01-01 23.解密Prompt系列23.大模型幻觉分类&归因&检测&缓解方案脑图全梳理01-15 24.解密prompt系列24. RLHF新方案之训练策略：SLiC-HF & DPO & RRHF & RSO02-22 25.解密prompt系列26. 人类思考vs模型思考：抽象和发散思维03-10 26.解密prompt系列25. RLHF改良方案之样本标注：RLAIF & SALMON03-25 27.解密prompt系列27. LLM对齐经验之如何降低通用能力损失04-13 28.解密Prompt系列28. LLM Agent之金融领域摸索：FinMem & FinAgent05-06 29.解密Prompt系列29. LLM Agent之真实世界海量API解决方案：ToolLLM & AnyTool05-23 30.解密Prompt系列30. LLM Agent之互联网冲浪智能体05-26 31.解密Prompt系列31. LLM Agent之从经验中不断学习的智能体06-11 32.解密Prompt系列32. LLM之表格理解任务-文本模态06-24 33.解密Prompt系列33. LLM之图表理解任务-多模态篇07-06 34.解密prompt系列34. RLHF之训练另辟蹊径：循序渐进 & 青出于蓝07-23 35.解密prompt系列35. 标准化Prompt进行时！ DSPy论文串烧和代码示例08-05 36.解密Prompt系列36. Prompt结构化编写和最优化算法UNIPROMPT08-19 37.解密Prompt系列37. RAG之前置决策何时联网的多种策略09-03 38.解密Prompt系列38.多Agent路由策略09-18 39.解密prompt系列39. RAG之借助LLM优化精排环节09-30 40.解密prompt系列40. LLM推理scaling Law10-11 41.解密prompt系列41. GraphRAG真的是Silver Bullet？10-27 42.解密prompt系列42. LLM通往动态复杂思维链之路11-15

43. 解密 prompt系列43. LLM Self Critics 11-25

前一章我们介绍了基于模型自我合成数据迭代，来提升LLM生成更合理的自我推理思考链路。但在模型持续提升的道路上，只提升Generator能力是不够的，需要同步提升Supervisor、Verifier的能力，才能提供有效的监督优化信号。

人类提供的监督信号有几类，包括人工直接生成最优回答(Demonstration), 人工提供偏好对比（Preference），人工给出优化建议（Critique）等几种，论文中曾提及以上几类信号的难易程度

The Evaluation of AI output is typically faster and easier for humans than the demonstration of ideal output

所以RLHF阶段的引入，除了降低模型模仿，提升泛化，增加更高水平的对齐，其实也有一部分原因是人类生成golden answer的上限是比较低的，毕竟不能雇佣一堆各领域专家来给你生成最优回答,所以训练也就从人类标注转移到了人类评估。

而现在当大模型能力提升到一定水平后，不仅是Demonstration，连Prefernce和Critique也会遇到瓶颈。当前阻碍模型智能进一步提升的一个核心问题就是评估水平的上限，而这时就需要模型评估的辅助，尤其是生成式评估能力的加持，下面我们看两篇OpenAI在生成式评估上的论文。

22年:Self-critiquing models for assisting human evaluators

比较早的这篇论文我们主要看下结论，毕竟模型更大更强了，训练范式也在这两年发生了转变。论文的核心就是机器辅助人类进行标注。可能早在22年之前，OpenAI就已经到了大模型在复杂问题上输出结果接近人类标注员的水平，所以才早早开始研究这个方向。

这里标注的任务已经脱离了早期descriminative的NLP任务，例如多项选择，分类等判断模型，而是已经聚焦在了对生成式模型的输出进行广泛评估。并且机器辅助也并非简单的对/错的分类判别，而是分类判别（critiqueable）、生成式评估(critique)、基于评估的条件优化(refinement)的结合体，如下

论文评估用模型辅助人类标注，得到了以下结论

生成式评估可以帮助标注员发现更多模型回答问题（人机协同，相比各自单打独斗能发现更多模型回答的问题）

随着模型规模提升，模型的回答会更难被发现问题（critiqueability），但同时模型自我评估的能力也会随之提升（fraction helpful）

足够大的模型可以通过自己评估自己的回答，来优化答案生成，通过拒绝采样得到更准确的critique，可以进一步提升效果

24年: LLM Critics Help Catch LLM Bugs

如果说22年初的论文还只是针对在部分人类难以评估的领域，例如生成式摘要上，使用人机协同评估带来的增益。24年的这篇论文就更广泛地讨论Scalable Oversight问题。这是Anthropic也在22年提出的概念，就是当模型能力在多数任务上超越人类时，人类该如何继续为模型提供有效的对齐信号，如下图

论文给出方案就是训练CriticGPT，使用模型生成式评估来辅助人类标注员。并同时给出了在推理时可以平衡问题发现的准召比例的推理方案Force Sampling Beam Search。论文评估在CriticGPT模型的帮助下，人工标注的效果会有显著的提升。下面我们分别讲下训练和推理部分。

数据和训练

论文选择了Coding，这个任务复杂度上限很高，相对容易验证且客观的任务场景。训练的核心在于代码标注RLHF数据集的构建，包括偏好标注标准和数据集组成。什么样的模型标注是好标注？什么样的模型代码样本能让偏好标注的一致性更高，同时数据集足够全面？

先说数据标注标准，论文综合召回和准确给出了4条衡量模型标注优劣的标准

召回率：模型的标注评论是否发现了回答中的所有Bug
核心召回率（CBI）：模型的标注评论是否发现了回答中的核心Bug
准确率：模型的标注评论是无中生有，或者鸡蛋里挑骨头
综合召回+准确：模型标注评论整体的有用性

人工标注员除了需要对每条模型评论针对以上标准进行打分外，还需要对4条模型标注的整体效果进行对比，最终是使用对比结果来作为RLHF的训练标签，考虑在标注时绝对打分的一致性要远远低于相对打分的一致性。

再说数据构成，整个RLHF的数据集包含两个部分

人工在模型回答中注入Bug，再让模型进行评论
模型回答自带Bug

人工数据部分就是论文的一个亮点，上图就是人工数据构建的过程，既人工在模型回答中加入Bug（Tampering），给出注入Bug的相关解释。之后模型需要在人工修改过的答案上进行标注评论，同时标注员也会依赖Bug说明，来衡量模型生成的多条标注的效果。

这类构造数据在RLHF数据集中占比更高，原因在于相比自带Bug的天然数据，这类加工数据，不仅Bug更加复杂，同时因为自带golden answer，所以在人工标注阶段能得到更一致，准确率更高的标注结果，在偏好数据的标注过程中，审核一致性是非常重要的。同时在收集数据过程中，论文还使用了多个版本，多个大小的模型，来丰富整个RLHF数据集的分布覆盖度。两类数据的占比分布如下