题目
从预训练的 LLM 中选择更好的样本:问题生成的案例研究
论文地址:https://aclanthology.org/2023.findings-acl.820/
摘要
近年来,大型语言模型 (LLM) 在自然语言生成方面表现出了令人印象深刻的实力。提高生成多样性的常见做法是从模型中采样多个输出。但是,缺乏一种简单而可靠的方法来从这些随机样本中选择最佳输出。作为以问题生成为框架的案例研究,我们提出了两种基于提示的方法,用于从一组 LLM 生成的候选问题中选择高质量问题。我们的方法在以下约束下工作:1) 黑盒(不可修改)问题生成模型和 2) 缺乏对人工注释参考的访问 - 这两者都是 LLM 在现实世界中部署的现实限制。通过自动和人工评估,我们通过经验证明我们的方法可以有效地选择比贪婪生成更高质量的问题。
简介与相关工作
大型语言模型 (LLM) 最近在 NLP 社区中获得了极大的欢迎 (Devlin 等人,2019 年;Liu 等人,2019 年;Bao 等人,2020 年;Brown 等人,2020 年)。模型和训练数据的规模不断增加,使得许多传统的学习方法变得不切实际/难以解决。因此,基于提示的学习已成为一种新的范式,专门针对利用 LLM 的强大功能 (Radford 等人,2019 年;Petroni 等人,2019 年;Raffel 等人,2020 年;Brown 等人,2020 年;Schick 和 Schütze,2021b;Gao 等人,2021 年;Liu 等人,2021 年)。在零样本设置中(例如在本研究中),数据样本首先被“口头化”为输入提示和真实响应——两者通常都采用自然语言形式。
然后,将提示发送给预先训练好的 LLM,以获得预测响应,然后可以将其与事实进行比较以进行评估。这项新技术已成功应用于许多应用,包括文本分类(Yin 等人,2019 年;Schick 和 Schütze,2021a)、问答(Jiang 等人,2021 年)、自然语言生成(Li 和 Liang,2021 年)和 NLG 评估(Yuan 等人,2021 年)。
尽管在流行的 NLP 基准上取得了令人印象深刻的结果,但后端 LLM 通常是使用通用领域数据进行预训练的,导致基于提示的学习在新领域的性能不佳。成功的领域适应面临两大挑战。首先,除了 LLM 的许多已知问题(Webson 和 Pavlick,2021 年;Min 等人,2022 年;Zhao 等人,2021 年;Lampinen 等人,2022 年)之外,它们的庞大规模和/或可访问性(例如,通过互联网上的 API 提供)使其成本过高且不切实际,不适合领域自适应。这些限制激发了最近一项称为提示编辑/调整的工作(Gao 等人,2021 年;Li 和 Liang,2021 年;Madaan 等人,2022 年)。总体思路是系统地研究提示构建与特定任务性能之间的相关性。提示构建有多种形式,从调整实值提示嵌入到少样本上下文学习示例的顺序/措辞/等。同时,它还引入了第二个挑战:即时调整通常依赖于数据的真实标签的可用性,这在标记数据稀缺的应用中带来了很大的不确定性。
鉴于上述挑战的普遍性,我们的研究重点是减轻注释可用性和模型参数访问的限制,从而使 LLM 更易于部署和用于实际应用。我们以主流 NLG 任务,即问题生成,作为案例研究(Du et al,2017;Yuan et al,2017;Du 和Cardie,2018;Pan 等人,2019;Liu 等人,2020;Pyatkin 等人,2021)。在此任务中,训练模型以生成基于上下文和答案的自然语言问题,以便可以使用上下文作为支持证据通过提供的答案来回答生成的问题。问题生成是许多 NLP 应用的基石,包括教育(Kurdi 等人,2020;Abdelghani 等人,2022)、自动 FAQ 生成(Mass 等人,2020)、信息搜索(Qi 等人,2020)等。例如,在教育环境中,问题生成系统可以生成激发学生好奇心和思考的演示(教学),或帮助评估学生对某些知识或技能的熟练程度(检查)。这些用例将从减少对计算资源、数据可用性和微调 LM 所需的专业知识的依赖中受益匪浅。
为了与这些现实世界场景保持一致,我们的目标是从仅推理的 LLM(即作为“黑盒”,相对更容易访问,例如通过在线 API)中获得更好的输出。 特别是,考虑到对多个输出进行采样以提高生成多样性的常见做法,我们提出了一种方法,旨在以零样本方式根据问题质量的多个方面选择最佳候选者——特别是没有模型自适应或人工注释。 我们的方法可以看作是更大的 NLG 管道中的事后选择过程,因此是正交的并且适用于零样本和非上下文学习方法(Rubin 等人,2021 年;Lu 等人,2022 年;Liu 等人,2022 年)。
问题设置符号
正式地,我们将上下文-答案对(c;a)的数据集视为字符串。问题生成的任务是生成一个问题 q,可以使用 c 作为支持证据通过 a 来回答。我们在零样本设置中使用现成的预训练的基于 LLM 的问题生成器(附录 A 中详细介绍了提示构造)。为了模拟黑盒生成器场景,我们不进行任何形式的模型调整。但是,我们确实假设可以访问从问题生成器随机采样的一组输出序列。因此,我们通过采样 k 个问题 Q = rqi ∶ i = 1; : : : ; kx 将我们的研究基于此应用场景。为了作为基准进行比较,我们还将 qg 表示为生成的问题使用贪婪算法(即在每个时间步骤生成最可能的标记&#