Self Refine 提高 LLM 的生成质量_self refine llm-优快云博客

在当今人工智能蓬勃发展的时代，大型语言模型（Large Language Models，简称 LLMs）已成为众多企业不可或缺的核心技术。从智能客服到内容创作，LLMs 在各个领域都展现出了惊人的能力。然而，随着应用范围的不断扩大，LLMs 的输出质量问题也日益凸显。许多组织发现，尽管 LLMs 能够生成看似合理的内容，但在细节、一致性和上下文理解等方面仍存在显著缺陷。具体而言，企业面临以下挑战：

内容质量不稳定：LLMs 生成的内容质量波动较大，难以保证持续的高质量输出。
内容和上下文不一致问题：虽然有 AI 大量的知识存储，但是运营团队发现 AI 生成的文案内容不够丰富，往往达不到运营人员设置的 PE 效果。
后期评估耗时：客户支持团队不得不花费大量时间修改和优化 AI 生成的生成。

这些挑战凸显了一个关键问题：如何在充分利用 LLMs 强大生成能力的同时，确保输出内容的稳定，一致和丰富？为解决这一问题，研究人员提出了 Self Refine 技术，这一创新方法旨在通过迭代优化提升 LLMs 的输出质量。

2. 解决方案

2.1 Self Refine 的简介

当我们创作时，很少能一次性完成最终版本。相反，我们通常会经历多轮修改和完善。Self Refine 技术的核心思想是模仿人类的思考和写作过程。它允许 LLM 迭代地细化输出，并沿多个维度合并反馈，以提高不同任务的性能。与之前的工作不同，它不需要监督训练数据或强化学习，并且使用单个 LLM 即可。

Self Refine 的核心思想类似于人类反馈强化学习（RHLF）。尽管开箱即用的 LLM 经过传统方法的训练，能够产生语法通顺的输出，但训练 LLM 产生“良好”的输出却是一个谜一样的难题。如“真实”、“有用”、“创意”这样的概念，比起单纯的词义和语言结构，更加依赖于具体语境。当我们没有足够多的数据样本去做 RHLF 这样的训练时，Self Refine 可以通过少数的例子对于具体的语境加以描述，并将人类偏好转化为数字奖励信号（i.e. 评分），从而让模型能够更好得对齐人类的偏好。

2.2 Self Refine 解决的问题

Self Refine 文章提到，人类思考的过程其实是一个逐步迭代优化的过程，先开始思考大纲、然后完善细节等等，在这个过程会逐步文本进行修改。因此这种特性其实也可以应用到 LLM 中。Self Refine 的核心思想是通过迭代反馈来改善 LLMs 初始输出。具体步骤是使用 LLM 生成一个输出，然后允许相同的模型为其自己的输出提供多方面的反馈；最后，相同的模型通过自己的反馈对其先前生成的输出进行了改进。因此、在整个过程中，都不会修改模型的参数。因此self-refine完全是基于 Prompt 设计来实现的，在其中会包含 few-shot 来激活模型强大的能力。

2.3 技术原理

如上图，Self Refine 是通过迭代反馈和优化来改进其自生成的初始输出。该框架的主要思想：

使用一个模型 M 生成一个初始输出 y0。
将这个输出反馈回同一个模型 M，让它对自己的输出进行多方面的反馈。
将反馈结果再次传回模型 M，用于根据反馈优化之前生成的输出。
重复上述反馈-优化过程，进行迭代改进。

因此 Self Refine 的工作原理可以分为以下几个关键步骤：

初始生成：LLM 根据给定的提示词生成初始输出内容。
自我评估：对同一个 LLM 对生成的内容进行评估(需要自己设计评估指标和方法，可以使用 few-shot 来做为 example），识别需要改进的方面。
反馈生成：LLM 基于评估的指标和方法生成具体的改进反馈。
内容优化：将反馈结果输入给 LLM，让其对原始输出进行修改和优化。
迭代循环：重复步骤 2-4，直到达到预设的质量标准或迭代次数上限。

2.4 实现细节说明

为了更好地理解 Self Refine 的工作机制，让我们深入探讨其实现细节：

组件：

Init：初始时，LLM 根据提示词首次生成内容。

Feedback：接收初始输出，并返回如何增强它的反馈,反馈的形成通常涉及输入的评估指标。例如：在文案生成场景中，需要提供给 LLM 多个评价指标，以便于 LLM 能够量化输出内容并生成反馈建议。

Refine：负责接收从“反馈“组件传递的改进建议，通过改进建议，Refine 模块再次针对之前的生成的内容进行生成。

过程说明：

大致过程为：Init → Feedback → Refine，其中 Feedback 和 Refine 会进行多次，直到系统设定要求为止。
Self Refine 保留了过去经历的历史。这是通过将以前的输出连续附加到提示中来实现的。这使系统能够从过去的错误中吸取教训，避免重蹈覆辙。
Feedback 会生成可操作的反馈。给定 LLM 的初始输出，反馈会指出输出满足（或不满足）要求的原因。可操作的反馈包括两个方面：（一）问题的本地化；（二）改进的指导建议。