23、系统性能评估：指标、方法与实践-优快云博客

本文链接：https://blog.youkuaiyun.com/lambda/article/details/151098989

系统性能评估：指标、方法与实践

1. 评估指标概述

在评估自然语言处理（NLP）系统或其他系统时，有两个重要概念需要牢记：有效性和可靠性。
- 有效性 ：指指标与我们直观上想要了解的实际属性相对应。例如，不能用文本长度来衡量其正负情感，因为文本长度并非衡量情感的有效指标。
- 可靠性 ：意味着如果我们反复测量同一事物，总是能得到相同的结果。

数据划分对于本章讨论的几乎所有评估指标都是必要的，但用户测试除外。

1.1 准确率和错误率

准确率定义为系统正确响应的数量除以输入的总数，错误率则是错误响应的数量除以输入的数量。需要注意的是，在阅读语音识别结果报告时，可能会遇到单词错误率，它根据不同的公式计算，考虑了常见的语音识别错误，与这里讨论的错误率不同。

1.2 精确率、召回率和 F1 分数

准确率在某些情况下可能会给出误导性结果。例如，在一个包含 100 个项目的不平衡数据集中，90 个项目属于多数类。此时，将每个案例自动分配到多数类可获得 90% 的准确率，但其余 10 个属于其他类的实例将始终被错误分类。因此，引入了精确率和召回率的概念。
- 召回率 ：指系统找到某一类的所有示例，不遗漏任何一个。公式为：$recall = \frac{true\ positives}{true\ positives + false\ negatives}$
- 精确率 ：指识别出的结果都是正确的。公式为：$precision = \frac{true\ positives}{true\ positives + false\ positives}$
- F1 分数 ：结合了精确率和召回率，是自然语言理解（NLU）中最常用的指标之一。公式为：$F_1 = \frac{precision \times recall}{precision + recall}$

F1 分数假设召回率和精确率同等重要，但并非总是如此。例如，在检测推文中公司产品提及的应用中，开发者可能更注重召回率，即使会产生大量误报。

1.3 受试者工作特征曲线（ROC）和曲线下面积（AUC）

测试项目所属类别的决策取决于其该类别的得分。如果项目得分超过给定的阈值，系统就判定该项目属于该类。阈值会影响真正例和假正例的得分。
- 阈值过高，属于该类的项目会减少，真正例也会降低。
- 阈值过低，系统会判定许多项目属于该类，接受许多不属于该类的项目，假正例会很高。

ROC 曲线用于可视化假正例（精确率失败）和假反例（召回率失败）之间的权衡，AUC 是衡量系统区分不同类别的常用指标。完美分类器的 AUC 分数为 1.0，随机分类器的 AUC 分数约为 0.5，表现比随机分类器差的分类器，AUC 分数小于 0.5。

1.4 混淆矩阵

混淆矩阵显示了每个类与其他类混淆的频率。

1.5 用户测试

除了直接的系统测量，还可以通过用户测试来评估系统。测试用户与系统进行交互，以了解系统性能的定性方面，如用户完成任务的难易程度和使用体验。但用户测试耗时且昂贵，需要注意以下几点：
- 用户应代表实际目标用户群体，否则结果可能会产生误导。
- 问卷应简单，避免询问与研究无关的信息。
- 如果用户测试结果对项目非常重要，应找有经验的人为测试过程进行设计，以确保结果的有效性和可靠性。

简单的用户测试测量方法包括：
- 让用户填写关于他们体验的简单问卷。
- 测量用户与系统交互的时间，根据系统目的，这可能是正面或负面的测量。例如，社交系统希望用户花费更多时间，而任务导向系统则希望用户花费更少时间。

1.6 差异的统计显著性

在比较多个系统或同一系统的不同版本时，可能会发现指标值的差异很小。此时需要确定这些差异是反映了实验条件之间的真实差异，还是由于偶然因素造成的，这就是统计显著性。通常，如果差异出现的概率为 1/20，则认为该差异具有统计显著性。但需要注意的是，即使差异具有统计显著性，在实际应用中也可能并不具有实际意义。

2. 三种文本分类方法的比较

评估技术的一个重要应用是决定在应用中使用哪种方法。我们将比较三种方法在电影评论数据集上的性能：小型 BERT 模型、TF - IDF 向量化与朴素贝叶斯分类、大型 BERT 模型。

2.1 小型变压器系统

使用小型 BERT 模型 small_bert/bert_en_uncased_L - 2_H - 128_A - 2，为了更好地评估该模型的性能，进行了以下更改：
1. 添加新的指标：精确率和召回率到之前使用的 BinaryAccuracy 指标中。

metrics = [tf.metrics.Precision(),tf.metrics.Recall(),tf.metrics.BinaryAccuracy()]

查看训练过程中精确率和召回率的变化：

history_dict = history.history
print(history_dict.keys())
acc = history_dict['binary_accuracy']
precision = history_dict['precision_1']
val_acc = history_dict['val_binary_accuracy']
loss = history_dict['loss']
val_recall = history_dict['val_recall_1']
recall = history_dict['recall_1']
val_loss = history_dict['val_loss']
val_precision = history_dict['val_precision_1']
precision = history_dict['precision_1']
val_recall = history_dict['val_recall_1']

绘制训练和验证损失随训练轮数的变化：

epochs = range(1, len(acc) + 1)
fig = plt.figure(figsize=(10, 6))
fig.tight_layout()
plt.subplot(4, 1, 1)
# r is for "solid red line"
plt.plot(epochs, loss, 'r', label='Training loss')
# b is for "solid blue line"
plt.plot(epochs, val_loss, 'b', label='Validation loss')
plt.title('Training and validation loss')
# plt.xlabel('Epochs')
plt.ylabel('Loss')
plt.legend()

从训练结果可以看出，训练和验证数据的损失在 0.40 到 0.45 之间趋于平稳，大约在第 7 轮训练后，继续训练不太可能提高性能。精确率和召回率在大约 7 轮训练后也趋于 0.8。

查看混淆矩阵和分类报告：

# Displaying the confusion matrix
%matplotlib inline
from sklearn.metrics import confusion_matrix,ConfusionMatrixDisplay,f1_score,classification_report
import matplotlib.pyplot as plt
plt.rcParams.update({'font.size': 12})
disp = ConfusionMatrixDisplay(confusion_matrix = conf_matrix,
                              display_labels = class_names)
print(class_names)
disp.plot(xticks_rotation=75,cmap=plt.cm.Blues)
plt.show()

print(classification_report(y_test, y_pred, target_names=class_names))

分类报告显示：
|类别|精确率|召回率|F1 分数|支持数|
|----|----|----|----|----|
|neg|0.82|0.80|0.81|12501|
|pos|0.80|0.82|0.81|12500|
|accuracy| | |0.81|25001|
|macro avg|0.81|0.81|0.81|25001|
|weighted avg|0.81|0.81|0.81|25001|

从报告中可以看出，系统在识别正面和负面评论方面表现相近，能正确分类许多评论，但仍存在许多错误。

接下来将比较 BERT 测试与基于 TF - IDF 向量化和朴素贝叶斯分类的测试。

2.2 评估方法总结

以下是对上述评估方法的总结：
|评估方法|优点|缺点|适用场景|
|----|----|----|----|
|准确率和错误率|简单直观|在不平衡数据集上可能误导|数据集平衡时初步评估|
|精确率、召回率和 F1 分数|提供更详细信息|计算相对复杂|需要深入了解系统性能时|
|ROC 曲线和 AUC|可视化分类性能|难以直观理解|比较不同分类器|
|混淆矩阵|展示类间混淆情况|信息较多，需解读|分析系统分类错误类型|
|用户测试|获取定性信息|耗时昂贵|了解用户体验和易用性|

2.3 评估流程

graph LR
    A[数据准备] --> B[选择评估指标]
    B --> C[模型训练]
    C --> D[模型评估]
    D --> E{结果分析}
    E -- 有改进空间 --> C
    E -- 满意 --> F[应用模型]

通过以上评估方法和流程，可以更全面地了解系统性能，并选择最适合的文本分类方法。

2.4 TF - IDF 向量化与朴素贝叶斯分类

TF - IDF（Term Frequency - Inverse Document Frequency）是一种常用的文本特征提取方法，它结合了词频（TF）和逆文档频率（IDF），能够衡量一个词在文档中的重要性。朴素贝叶斯分类器是基于贝叶斯定理和特征条件独立假设的分类算法，在文本分类任务中表现良好。

操作步骤

数据预处理 ：对电影评论数据集进行清洗，去除噪声数据，如特殊字符、停用词等，并进行分词处理。
TF - IDF 向量化 ：使用 sklearn 库中的 TfidfVectorizer 对预处理后的文本进行向量化。

from sklearn.feature_extraction.text import TfidfVectorizer

# 初始化 TF - IDF 向量化器
vectorizer = TfidfVectorizer()

# 对训练数据进行向量化
X_train_tfidf = vectorizer.fit_transform(X_train)

# 对测试数据进行向量化
X_test_tfidf = vectorizer.transform(X_test)

训练朴素贝叶斯分类器 ：使用 sklearn 库中的 MultinomialNB 进行训练。

from sklearn.naive_bayes import MultinomialNB

# 初始化朴素贝叶斯分类器
clf = MultinomialNB()

# 训练模型
clf.fit(X_train_tfidf, y_train)

模型评估 ：使用之前介绍的评估指标对模型进行评估。

from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

# 预测测试数据
y_pred = clf.predict(X_test_tfidf)

# 计算评估指标
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred, average='weighted')
recall = recall_score(y_test, y_pred, average='weighted')
f1 = f1_score(y_test, y_pred, average='weighted')

print(f"Accuracy: {accuracy}")
print(f"Precision: {precision}")
print(f"Recall: {recall}")
print(f"F1 - score: {f1}")

2.5 大型 BERT 模型

大型 BERT 模型通常具有更多的层数、更大的隐藏层维度和更多的注意力头，能够学习到更复杂的语言表示。但训练和推理成本也相对较高。

操作步骤

模型选择 ：选择合适的大型 BERT 模型，如 bert - base - uncased 。
数据预处理 ：将文本数据转换为适合 BERT 模型输入的格式，包括添加特殊标记、分词等。

from transformers import BertTokenizer

# 初始化 BERT 分词器
tokenizer = BertTokenizer.from_pretrained('bert - base - uncased')

# 对文本进行分词和编码
input_ids = []
attention_masks = []

for text in texts:
    encoded_dict = tokenizer.encode_plus(
                        text,                      # 输入文本
                        add_special_tokens = True, # 添加特殊标记 [CLS] 和 [SEP]
                        max_length = 128,          # 最大序列长度
                        pad_to_max_length = True,
                        return_attention_mask = True,   # 返回注意力掩码
                        return_tensors = 'pt',     # 返回 PyTorch 张量
                   )

    input_ids.append(encoded_dict['input_ids'])
    attention_masks.append(encoded_dict['attention_mask'])

模型训练 ：使用 transformers 库中的 BertForSequenceClassification 进行训练。

from transformers import BertForSequenceClassification, AdamW

# 初始化 BERT 分类模型
model = BertForSequenceClassification.from_pretrained(
    "bert - base - uncased", 
    num_labels = 2,   
    output_attentions = False, 
    output_hidden_states = False, 
)

# 定义优化器
optimizer = AdamW(model.parameters(), lr = 2e - 5, eps = 1e - 8)

# 训练模型
for epoch in range(num_epochs):
    model.train()
    total_loss = 0

    for step, batch in enumerate(train_dataloader):
        b_input_ids = batch[0].to(device)
        b_input_mask = batch[1].to(device)
        b_labels = batch[2].to(device)

        model.zero_grad()        

        outputs = model(b_input_ids, 
                    token_type_ids = None, 
                    attention_mask = b_input_mask, 
                    labels = b_labels)

        loss = outputs.loss
        total_loss += loss.item()
        loss.backward()
        optimizer.step()

    avg_train_loss = total_loss / len(train_dataloader)
    print(f'Epoch: {epoch + 1}, Average training loss: {avg_train_loss}')

模型评估 ：使用与小型 BERT 模型相同的评估指标和方法进行评估。

2.6 三种方法的比较分析

性能比较

方法	准确率	精确率	召回率	F1 分数	训练时间	计算成本
小型 BERT 模型	0.81	0.81	0.81	0.81	适中	适中
TF - IDF 与朴素贝叶斯	根据实际计算结果	根据实际计算结果	根据实际计算结果	根据实际计算结果	短	低
大型 BERT 模型	通常较高	通常较高	通常较高	通常较高	长	高

适用场景

小型 BERT 模型 ：在计算资源有限的情况下，能够在一定程度上平衡性能和成本，适用于对性能要求不是极高的场景。
TF - IDF 与朴素贝叶斯 ：训练速度快，计算成本低，适用于快速验证和对实时性要求较高的场景，但在处理复杂语义时性能可能不如 BERT 模型。
大型 BERT 模型 ：能够学习到更复杂的语言表示，在对性能要求极高的场景中表现出色，但需要大量的计算资源和时间进行训练。

2.7 选择最佳方法的决策流程

graph LR
    A[明确任务需求] --> B{计算资源是否充足?}
    B -- 是 --> C{对性能要求是否极高?}
    C -- 是 --> D[选择大型 BERT 模型]
    C -- 否 --> E[选择小型 BERT 模型]
    B -- 否 --> F{是否需要快速验证?}
    F -- 是 --> G[选择 TF - IDF 与朴素贝叶斯]
    F -- 否 --> E

3. 总结

通过对准确率、错误率、精确率、召回率、F1 分数、ROC 曲线、AUC、混淆矩阵等评估指标的介绍，以及用户测试和统计显著性的讨论，我们了解了如何全面评估系统性能。同时，通过比较小型 BERT 模型、TF - IDF 向量化与朴素贝叶斯分类、大型 BERT 模型在电影评论数据集上的性能，我们可以根据计算资源、性能要求和任务需求等因素选择最合适的文本分类方法。在实际应用中，应根据具体情况灵活运用这些评估方法和分类技术，以达到最佳的效果。

希望本文能够帮助你更好地理解系统性能评估和文本分类方法的选择，在实际项目中取得更好的成果。