【文献精读笔记】Explainability for Large Language Models: A Survey （大语言模型的可解释性综述）（三）

原创

已于 2025-01-01 19:16:34 修改 · 1.4k 阅读

32 ·

CC 4.0 BY-SA版权

文章标签：

#语言模型 #机器学习 #自然语言处理

于 2024-12-30 21:45:16 首次发布

****非斜体正文为原文献内容（也包含笔者的补充），灰色块中是对文章细节的进一步详细解释！

3.2 全局解释（Global Explanation）

与旨在解释模型个体预测的局部解释不同，全局解释提供了对语言模型内部工作机制的洞察。全局解释旨在理解各个组成部分（神经元、隐藏层和更大的模块）编码了什么，并解释各个组成部分学到的知识/语言属性。我们检查了三种主要的全局解释方法：分析模型表示和参数的探测方法，确定模型对输入响应的神经元激活分析，以及基于概念的方法。

3.2.1 基于探测的解释（Probing-Based Explanations）

自监督预训练过程导致模型从训练数据中获得广泛的语言知识。探测技术用于理解LLMs（如BERT）捕获的知识，可以帮助研究人员了解模型在预训练过程中学到了什么，以及模型是如何表示和处理语言信息的。

3.2.1.1 基于分类器的探测（Classifier-Based Probing）

基于分类器的探测的基本思想是在预训练或微调的语言模型（如BERT、T5）上训练一个浅层分类器。

为了执行探测，首先冻结预训练模型的参数，模型为输入单词、短语或句子生成表示，并学习参数，如注意力权重。
这些表示和模型参数被输入到探测分类器中，其任务是识别模型获得的某些语言属性或推理能力。
一旦探测训练完成，它将在保留数据集上进行评估。标记数据来自可用的标注器或金标准标注数据集。尽管每个探测分类器通常针对特定任务量身定制，但训练分类器探测不同知识的方法保持一致。

"Holdout dataset"（保留数据集）：指的是从整个数据集中划分出来的一部分数据，这部分数据在模型训练过程中不被使用，而是保留到训练完成后用于评估模型的性能。保留数据集的主要目的是提供一个未被模型见过的数据样本集合，以测试模型对新数据的泛化能力。

Available Taggers（可用的标注器）：标注器（Tagger）是指能够识别文本中单词的语法类别（如名词、动词等）的NLP工具。能够自动对文本进行词性标注（Part-of-Speech Tagging）或其他类型的标注，如命名实体识别（Named Entity Recognition）。例如，NLTK（Natural Language Toolkit）是一个流行的Python库，它提供了易于使用的接口来进行文本处理，包括分类、标记化、词干提取、标注等。

Gold-Annotated Datasets（金标准标注数据集）：金标准标注数据集是指人工精确标注的数据集，这些数据集被用作训练和评估NLP模型的标准。在这些数据集中，每条数据都经过了详细的标注，比如标记了词性、句法结构、实体等信息。例如，Universal NER（UNER）项目旨在开发多语言的命名实体识别基准，提供了跨语言一致的标注方案。

相关研究将根据探测的模型组件进行介绍，即向量表示和模型参数。

我们首先审视了一些研究工作，这些工作通过分析向量表示来衡量模型中蕴含的知识。在这个类别中，所谓的“知识”可以是低层次的语法知识（Syntax Knowledge），也可以是高层次的语义知识（Semantic Knowledge）。研究表明，模型的较低层次更能够预测单词级的语法，而较高层次更能够捕获句子级的语法和语义知识（Belinkov et al., 2017; Peters et al., 2018; Blevins et al., 2018; Jawahar et al., 2019)。

语法标签可以进一步分为单词级或句子级类别。单词级的语法标签提供有关每个单词的信息，如词性标记、形态标记、最小短语成分标记等。句子级的语法标签描述整个句子的属性，如语态（主动或被动）、时态（过去、现在、未来）和顶级句法序列。

1）对于单词级语法探测，通常通过依赖句法分析器 (Dozat & Manning, 2017)来引入解析树（Parse Trees），来帮助提取依赖关系 (Tenney et al., 2019b)。还开发了结构探测器，通过使用距离度量测量所有词对之间的句法距离来识别特定向量空间中的解析树 (Hewitt & Manning, 2019; Chen et al., 2021)。这表明句法知识被嵌入到了向量表示中，并且通常用于重建依赖树以进行探测任务。

解析树（Parse Trees）：

解析树是一种树状结构，用于表示句子中单词之间的句法关系。在这种结构中，每个节点代表一个单词，而边代表单词之间的依存关系或句法结构。

然而，有人担心探测分类器是学习表示中的语法，还是仅仅学习任务。一些人认为，只有丰富的语法表示才能使简单分类器表现良好 (Lin et al., 2019)。Kunz和Kuhlmann (2020)推翻了这些主张，证明其良好的性能来自于对局部邻近单词进行编码。一项研究表明，如果一个分类器主要依赖于语义线索（即单词或句子的含义信息）来进行预测，那么它可能无法有效地提取或识别句子中的语法结构（这里的“语法”指的是句子中单词如何组织和相互关联的规则，比如词性、句法结构、依存关系等）(Maudslay & Cotterell, 2021)。相比之下，其他研究发现，如BERT这样的模型以多种方式编码相应信息 (Mohebbi et al., 2021; Li et al