FlagAI项目中的自定义提示-表达器模式(PVP)技术解析

童兴富Stuart

于 2025-06-10 09:18:02 发布

阅读量271

点赞数 3

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_01151/article/details/148552287

FlagAI项目中的自定义提示-表达器模式(PVP)技术解析

FlagAI FlagAI (Fast LArge-scale General AI models) is a fast, easy-to-use and extensible toolkit for large-scale model. 项目地址: https://gitcode.com/gh_mirrors/fl/FlagAI

什么是提示-表达器模式(PVP)

提示-表达器模式(Prompt-Verbalizer Pair，简称PVP)是近年来自然语言处理领域中的一项重要技术，特别是在小样本学习场景下表现出色。该技术通过设计特定的提示模板和标签映射方式，能够显著提升预训练语言模型在下游任务中的表现。

PVP的核心组成

PVP主要由两部分构成：

提示(Prompt)：将原始输入文本转换为包含[MASK]标记的特定模板
表达器(Verbalizer)：将原始标签映射到更适合模型预测的词汇

自定义PVP的实现方法

在FlagAI项目中，我们可以通过继承PVP基类来实现自定义的提示-表达器模式。下面通过一个RTE(文本蕴含识别)任务的例子来详细说明：

1. 定义表达器映射

class RtePVP(PVP):
    # 将原始标签映射到更有意义的词汇
    VERBALIZER = {"not_entailment": [" No"], "entailment": [" Yes"]}

这里我们将"not_entailment"映射为"No"，"entailment"映射为"Yes"，这样模型在预测[MASK]位置时更符合自然语言表达。

2. 设计提示模板

FlagAI支持多种提示模板设计，通过pattern_id来区分不同的模板样式：

@staticmethod
def available_patterns():
    return [0, 1, 2]  # 支持三种不同的模板

每种模板都有其特定的构造方式：

模板0：

parts_a, parts_b = [None, '"', self.shortenable(text_b), '" ?'], [
    None, [self.mask], ',', None, ' "',
    self.shortenable(text_a), '"'
]

这种模板将生成类似："文本B" ? [MASK], "文本A"的句式。

模板1：

parts_a, parts_b = [None, self.shortenable(text_b), '?'], [
    None, [self.mask], ',', None,
    self.shortenable(" " + text_a)
]

生成类似：文本B? [MASK], 文本A的句式。

模板2：

parts_a, parts_b = [
    None,
    self.shortenable(text_a), None, ' question:',
    self.shortenable(" " + text_b), ' True or False?', None,
    ' answer:', [self.mask]
], []

生成类似：文本A question: 文本B True or False? answer: [MASK]的句式。

3. 标签词汇化处理

def verbalize(self, label) -> List[str]:
    if self.pattern_id == 4:
        return [' true'] if label == 'entailment' else [' false']
    return RtePVP.VERBALIZER[label]

根据不同的模板选择不同的标签映射方式。

如何使用自定义PVP

定义好PVP类后，只需将其传递给数据处理的collate函数：

collate_fn = ConstructSuperglueStrategy(cl_args,
                                      tokenizer,
                                      task_name=task_name,
                                      custom_pvp=RtePVP)