本文旨在使用少量提示来激发OpenAI的Davinci大型语言模型(GPT-3/ChatGPT的基础模型)对大型银行的客户服务请求进行意图分类。按照通常的做法,我们从可用的人工标注请求示例数据集中获取少量示例,并将其包含在提示模板中。然而,结果表明LLM的预测结果不可靠——仔细检查后发现这是因为现实世界的数据杂乱无章且容易出错。在手动修改提示模板以减少可能存在的噪声数据的情况下,LLM在此客户服务意图分类任务中的表现仅略有提高。如果我们改用数据中心的人工智能算法(如Confident Learning)来确保仅选择高质量的少量示例包含在提示模板中,LLM的预测结果将显著提高。
确保可靠的少量提示选择对于LLM来说是至关重要的。我们需要考虑如何精选高质量的少量示例来激发LLM生成最可靠的预测结果。需要确保少量提示中的高质量示例可能是显而易见的,但许多工程师不知道有算法/软件可以帮助您更系统地完成这项工作(实际上,这是数据中心人工智能的一个完整科学学科)。这种算法数据整理有许多优点,例如:完全自动化、系统化以及广泛适用于除意图分类之外的通用LLM应用。
本文研究了一种50类别变体的Banking-77数据集,其中包含带有相应意图标注的在线银行查询。我们使用一个包含约500个短语的固定测试数据集评估预测该标签的模型,并拥有约1000个标记短语池,我们将其视为包含在我们的少量示例中的候选短语。
银行意图数据集
本文研究了 Banking-77 数据集的 50 类变体,其中包含用其相应意图注释的在线银行查询(如下所示的标签)。我们使用包含 ~500 个短语的固定测试数据集评估预测此标签的模型,并拥有 ~1000 个标记短语的池,我们认为这些短语可以包含在我们的少数样本中。