19、自然语言处理与深度学习中的集成分类方法

最新推荐文章于 2025-12-10 23:02:58 发布

day7

最新推荐文章于 2025-12-10 23:02:58 发布

阅读量25

点赞数

CC 4.0 BY-SA版权

分类专栏：集成学习实战精讲文章标签：自然语言处理深度学习文本分类

本文链接：https://blog.youkuaiyun.com/day7/article/details/152551063

集成学习实战精讲专栏收录该内容

19 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

自然语言处理与深度学习中的集成分类方法

1. 基于NLP的异构集成文本分类

在文本分类任务中，我们可以采用异构集成的方法来提高分类的准确性。下面将详细介绍具体的操作步骤和技术细节。

1.1 数据准备与预处理

导入必要的库 ：使用 glob 模块来匹配指定路径下的文件。示例代码如下：

import glob

读取文件并创建数据集 ：通过 open() 方法读取指定路径下的所有文件，并将其内容追加到一个数据集中。同时，创建一个标签列，为每个评论添加正或负的标签。

# 使用glob模块查找指定路径下的所有文件
file_paths = glob.glob('path/to/files/*')
reviews = []
labels = []
for file_path in file_paths:
    with open(file_path, 'r') as file:
        review = file.read()
        reviews.append(review)
        # 根据文件路径或其他规则确定标签
        if 'positive' in file_path:
            labels.append('positive')
        else:
            labels.append('negative')

数据洗牌 ：由于正负面评论是顺序添加的，为了避免模型的偏差，使用 shuffle() 方法对数据进行洗牌。

from sklearn.utils import shuffle
reviews, labels = shuffle(reviews, labels, random_state=42)

数据清洗 ：将文本转换为小写，去除标点符号和停用词，进行词干提取和分词操作，以创建特征向量。

import re
import string
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer

stop_words = set(stopwords.words('english'))
stemmer = PorterStemmer()

def clean_text(text):
    text = text.lower()
    text = re.sub(r'[^\w\s]', '', text)
    tokens = text.split()
    tokens = [stemmer.stem(token) for token in tokens if token not in stop_words]
    return ' '.join(tokens)

cleaned_reviews = [clean_text(review) for review in reviews]

1.2 特征提取与模型训练

划分特征和目标变量 ：将特征变量和目标变量分别存储在 X 和 Y 中。

X = cleaned_reviews
Y = labels

划分训练集和测试集 ：使用 test_size=.3 将数据划分为训练集和测试集。

from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.3, random_state=42)

特征提取 ：使用 CountVectorizer() 和 TfidfVectorizer() 将文本转换为向量和TF-IDF向量。

from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer

count_vectorizer = CountVectorizer()
count_train = count_vectorizer.fit_transform(X_train)
count_test = count_vectorizer.transform(X_test)

tfidf_vectorizer = TfidfVectorizer()
tfidf_train = tfidf_vectorizer.fit_transform(X_train)
tfidf_test = tfidf_vectorizer.transform(X_test)

模型训练与评估 ：分别使用随机森林、朴素贝叶斯和支持向量分类器在计数数据和TF-IDF数据上进行训练，并评估模型的性能。

from sklearn.ensemble import RandomForestClassifier
from sklearn.naive_bayes import MultinomialNB
from sklearn.svm import SVC

# 随机森林模型在计数数据上的训练与评估
rf_count_model = RandomForestClassifier()
rf_count_model.fit(count_train, Y_train)
rf_count_pred = rf_count_model.predict(count_test)
print("Random Forest (Count) Accuracy:", rf_count_model.score(count_test, Y_test))

# 随机森林模型在TF-IDF数据上的训练与评估
rf_tfidf_model = RandomForestClassifier()
rf_tfidf_model.fit(tfidf_train, Y_train)
rf_tfidf_pred = rf_tfidf_model.predict(tfidf_test)
print("Random Forest (TF-IDF) Accuracy:", rf_tfidf_model.score(tfidf_test, Y_test))

# 朴素贝叶斯模型在计数数据上的训练与评估
nb_count_model = MultinomialNB()
nb_count_model.fit(count_train, Y_train)
nb_count_pred = nb_count_model.predict(count_test)
print("Naive Bayes (Count) Accuracy:", nb_count_model.score(count_test, Y_test))

# 朴素贝叶斯模型在TF-IDF数据上的训练与评估
nb_tfidf_model = MultinomialNB()
nb_tfidf_model.fit(tfidf_train, Y_train)
nb_tfidf_pred = nb_tfidf_model.predict(tfidf_test)
print("Naive Bayes (TF-IDF) Accuracy:", nb_tfidf_model.score(tfidf_test, Y_test))

# 支持向量分类器在计数数据上的训练与评估
svc_count_model = SVC(kernel='linear')
svc_count_model.fit(count_train, Y_train)
svc_count_pred = svc_count_model.predict(count_test)
print("SVC (Count) Accuracy:", svc_count_model.score(count_test, Y_test))

# 支持向量分类器在TF-IDF数据上的训练与评估
svc_tfidf_model = SVC(kernel='linear')
svc_tfidf_model.fit(tfidf_train, Y_train)
svc_tfidf_pred = svc_tfidf_model.predict(tfidf_test)
print("SVC (TF-IDF) Accuracy:", svc_tfidf_model.score(tfidf_test, Y_test))

1.3 模型评估与可视化

绘制ROC曲线和AUC分数 ：为每个基础学习器绘制ROC曲线，并计算AUC分数。

from sklearn.metrics import roc_curve, auc
import matplotlib.pyplot as plt

# 以随机森林（TF-IDF）为例
rf_tfidf_probs = rf_tfidf_model.predict_proba(tfidf_test)[:, 1]
fpr, tpr, thresholds = roc_curve(Y_test, rf_tfidf_probs, pos_label='positive')
roc_auc = auc(fpr, tpr)

plt.figure()
plt.plot(fpr, tpr, color='darkorange', lw=2, label='ROC curve (area = %0.2f)' % roc_auc)
plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver operating characteristic example')
plt.legend(loc="lower right")
plt.show()

绘制测试准确率 ：绘制每个模型在计数数据和TF-IDF数据上的测试准确率。

models = ['Random Forest (Count)', 'Random Forest (TF-IDF)', 'Naive Bayes (Count)', 'Naive Bayes (TF-IDF)', 'SVC (Count)', 'SVC (TF-IDF)']
accuracies = [rf_count_model.score(count_test, Y_test), rf_tfidf_model.score(tfidf_test, Y_test), nb_count_model.score(count_test, Y_test), nb_tfidf_model.score(tfidf_test, Y_test), svc_count_model.score(count_test, Y_test), svc_tfidf_model.score(tfidf_test, Y_test)]

plt.figure(figsize=(10, 6))
plt.bar(models, accuracies)
plt.xlabel('Models')
plt.ylabel('Accuracy')
plt.title('Test Accuracy of Different Models')
plt.xticks(rotation=45)
plt.show()

1.4 词性标注与分块

词性标注（POS Tagging） ：词性标注是自然语言处理中的一项基础任务，用于为文本中的每个单词标注其词性。使用 NLTK 库的 pos_tag 函数进行词性标注。

import nltk
from nltk.tag import pos_tag
from nltk.corpus import stopwords
import pandas as pd

# 假设df_moviereviews是之前创建的DataFrame
df_moviereviews = pd.DataFrame({'text': cleaned_reviews, 'label': Y})
df_moviereviews['text'] = df_moviereviews['text'].apply(lambda x: " ".join(x.lower() for x in x.split()))

from nltk.stem.wordnet import WordNetLemmatizer
import string

stop = set(stopwords.words('english'))
exclude = set(string.punctuation)
lemma = WordNetLemmatizer()

def clean(doc):
    stop_free = " ".join([i for i in doc.lower().split() if i not in stop])
    stop_free = ''.join(ch for ch in stop_free if ch not in exclude)
    normalized = " ".join(lemma.lemmatize(word) for word in stop_free.split())
    return normalized

tokenized_sent = [clean(doc).split() for doc in df_moviereviews["text"]]
postag = [nltk.pos_tag(token) for token in tokenized_sent]

分块（Chunking） ：分块是在词性标注的基础上，将多个标记组合成有意义的实体。 NLTK 提供了 ne_chunk 函数，用于识别人员、地点和组织等实体。

from nltk.chunk import ne_chunk

chunked_sent = [ne_chunk(postag) for postag in postag]

2. 基于Keras的同质集成多分类

在多分类问题中，使用同质集成模型可以提高分类的准确性。下面以Fashion-MNIST数据集为例，介绍如何使用Keras构建同质集成模型。

2.1 数据准备

导入必要的库 ：使用Google Colab进行模型训练，由于其已经预装了TensorFlow，因此无需单独安装。

import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import tensorflow as tf
from tensorflow import keras
from sklearn.utils import resample
from sklearn.metrics import accuracy_score
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report
from scipy import stats

加载数据集 ：使用 tf.keras.datasets.fashion_mnist.load_data() 加载Fashion-MNIST数据集。

(x_train, y_train), (x_test, y_test) = tf.keras.datasets.fashion_mnist.load_data()

查看数据信息 ：查看训练集和测试集的维度，以及目标变量的唯一值。

print("x_train shape:", x_train.shape, "y_train shape:", y_train.shape)
print("Unique classes:", np.unique(y_train))

可视化部分数据 ：绘制前15张图像及其对应的标签。

fig = plt.figure(figsize=(16, 8))
columns = 5
rows = 3
for i in range(1, columns * rows + 1):
    fig.add_subplot(rows, columns, i)
    plt.title("Actual Class: {}".format(y_train[i]), color='r', fontsize=16)
    plt.imshow(x_train[i], cmap='gray')
plt.show()

2.2 模型训练与评估

创建多个同质模型 ：使用 tf.keras 模块创建多个同质模型，并在多个迭代中进行训练。

accuracy = pd.DataFrame(columns=["Accuracy", "Precision", "Recall"])
predictions = np.zeros(shape=(10000, 7))
row_index = 0

for i in range(7):
    # 自助采样
    boot_train = resample(x_train, y_train, replace=True, n_samples=40000, random_state=None)
    model = tf.keras.Sequential([
        tf.keras.layers.Flatten(input_shape=(28, 28)),
        tf.keras.layers.Dense(256, activation=tf.nn.relu),
        tf.keras.layers.Dense(128, activation=tf.nn.relu),
        tf.keras.layers.Dense(128, activation=tf.nn.relu),
        tf.keras.layers.Dense(128, activation=tf.nn.relu),
        tf.keras.layers.Dense(128, activation=tf.nn.relu),
        tf.keras.layers.Dense(128, activation=tf.nn.relu),
        tf.keras.layers.Dense(128, activation=tf.nn.relu),
        tf.keras.layers.Dense(128, activation=tf.nn.relu),
        tf.keras.layers.Dense(128, activation=tf.nn.relu),
        tf.keras.layers.Dense(128, activation=tf.nn.relu),
        tf.keras.layers.Dense(10, activation=tf.nn.softmax)
    ])
    # 编译模型
    model.compile(loss='sparse_categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
    # 训练模型
    model.fit(x_train, y_train, epochs=10, batch_size=64)
    # 评估模型
    score = model.evaluate(x_test, y_test, batch_size=64)
    accuracy.loc[row_index, "Accuracy"] = score[1]
    # 进行预测
    model_pred = model.predict(x_test)
    pred_classes = model_pred.argmax(axis=-1)
    accuracy.loc[row_index, 'Precision'] = precision_score(y_test, pred_classes, average='weighted')
    accuracy.loc[row_index, 'Recall'] = recall_score(y_test, pred_classes, average='weighted')
    # 保存预测结果
    predictions[:, i] = pred_classes
    print(score)
    row_index += 1
    print("Iteration " + str(i + 1) + " Accuracy : " + "{0}".format(score[1]))

汇总评估指标 ：查看每个迭代的准确率、精确率和召回率。

print(accuracy)

最大投票法 ：使用 stats.mode() 进行最大投票，确定每个观测最常被预测的类别。

df_iteration = pd.DataFrame([predictions[:, 0], predictions[:, 1], predictions[:, 2], predictions[:, 3], predictions[:, 4], predictions[:, 5], predictions[:, 6]])
df_iteration = df_iteration.astype('int64')
mode = stats.mode(df_iteration)

计算测试集准确率 ：计算最大投票法预测结果的准确率。

print(accuracy_score(y_test, mode[0].T))

生成混淆矩阵 ：生成混淆矩阵并进行可视化。

cm = confusion_matrix(y_test, mode[0].T, labels=[0, 1, 2, 3, 4, 5, 6, 7, 8])
ax = plt.subplot()
sns.heatmap(cm, annot=True, ax=ax, fmt='g', cmap='Blues')
plt.show()

绘制性能指标图 ：绘制每个迭代和集成模型的准确率、精确率和召回率。

accuracy["Models"] = ["Model 1", "Model 2", "Model 3", "Model 4", "Model 5", "Model 6", "Model 7"]
accuracy = accuracy.append(pd.DataFrame([[accuracy_score(y_test, mode[0].T), 0, 0, "Ensemble Model"]], columns=["Accuracy", "Precision", "Recall", "Models"]))
accuracy.index = range(accuracy.shape[0])
accuracy.set_value(7, 'Precision', precision_score(y_test, mode[0].T, average='micro'))
accuracy.set_value(7, 'Recall', recall_score(y_test, mode[0].T, average='micro'))

plt.figure(figsize=(20, 8))
plt.plot(accuracy.Models, accuracy.Accuracy)
plt.title("Accuracy across all Iterations and Ensemble")
plt.ylabel("Accuracy")
plt.show()

plt.figure(figsize=(20, 8))
plt.plot(accuracy.Models, accuracy.Accuracy, accuracy.Models, accuracy.Precision)
plt.title("Metrics across all Iterations and models")
plt.legend(["Accuracy", "Precision"])
plt.show()

总结

通过以上的实验，我们可以看到异构集成和同质集成方法在文本分类和多分类问题中都能取得较好的效果。在文本分类中，通过多种模型的集成和特征提取方法的结合，可以提高模型的准确性。在多分类问题中，同质集成模型通过多次迭代和最大投票法，也能显著提升分类性能。同时，词性标注和分块等自然语言处理技术可以为文本分析提供更丰富的信息。在实际应用中，我们可以根据具体的问题和数据特点选择合适的方法和模型。

自然语言处理与深度学习中的集成分类方法

3. 技术点分析

3.1 特征提取方法对比

通过对比可以发现， TfidfVectorizer 在大多数情况下能够提供更有价值的特征，从而提高模型的性能。

3.2 模型架构分析

在多分类问题中，我们使用了 tf.keras.Sequential 构建了一个多层神经网络模型。模型架构如下：

graph LR
    A[输入层 (28x28)] --> B[Flatten层]
    B --> C[全连接层 (256, ReLU)]
    C --> D[全连接层 (128, ReLU)]
    D --> E[全连接层 (128, ReLU)]
    E --> F[全连接层 (128, ReLU)]
    F --> G[全连接层 (128, ReLU)]
    G --> H[全连接层 (128, ReLU)]
    H --> I[全连接层 (128, ReLU)]
    I --> J[全连接层 (128, ReLU)]
    J --> K[全连接层 (128, ReLU)]
    K --> L[全连接层 (128, ReLU)]
    L --> M[输出层 (10, Softmax)]

Flatten层 ：将输入的二维图像数据转换为一维向量，方便后续全连接层的处理。
全连接层 ：使用ReLU作为激活函数，增加模型的非线性能力，帮助模型学习更复杂的特征。
输出层 ：使用Softmax作为激活函数，将模型的输出转换为概率分布，适用于多分类问题。

3.3 优化器和损失函数选择

在模型训练过程中，我们使用了Adam优化器和 sparse_categorical_crossentropy 损失函数。下面对它们进行简要介绍：
- Adam优化器 ：是一种自适应学习率的优化算法，结合了Adagrad和RMSProp的优点。它能够根据参数的更新情况自动调整学习率，使得模型在训练过程中更加稳定和高效。
- sparse_categorical_crossentropy损失函数 ：适用于目标变量为整数编码的多分类问题。它计算模型预测的概率分布与真实标签之间的交叉熵损失，通过最小化损失来优化模型。

4. 关键路径总结

4.1 文本分类关键路径

graph LR
    A[数据准备] --> B[数据清洗]
    B --> C[特征提取]
    C --> D[模型训练]
    D --> E[模型评估]
    E --> F[可视化分析]

数据准备 ：读取文本数据，创建标签列，并进行数据洗牌。
数据清洗 ：将文本转换为小写，去除标点符号和停用词，进行词干提取和分词操作。
特征提取 ：使用 CountVectorizer 和 TfidfVectorizer 将文本转换为向量和TF-IDF向量。
模型训练 ：使用随机森林、朴素贝叶斯和支持向量分类器在计数数据和TF-IDF数据上进行训练。
模型评估 ：计算模型的准确率、精确率、召回率等指标，并绘制ROC曲线和AUC分数。
可视化分析 ：绘制每个模型在计数数据和TF-IDF数据上的测试准确率。

4.2 多分类关键路径

graph LR
    A[数据准备] --> B[模型训练]
    B --> C[评估指标汇总]
    C --> D[最大投票法]
    D --> E[计算准确率]
    E --> F[生成混淆矩阵]
    F --> G[绘制性能指标图]

数据准备 ：加载Fashion-MNIST数据集，查看数据信息，并可视化部分数据。
模型训练 ：使用 tf.keras 模块创建多个同质模型，并在多个迭代中进行训练。
评估指标汇总 ：记录每个迭代的准确率、精确率和召回率。
最大投票法 ：使用 stats.mode() 进行最大投票，确定每个观测最常被预测的类别。
计算准确率 ：计算最大投票法预测结果的准确率。
生成混淆矩阵 ：生成混淆矩阵并进行可视化。
绘制性能指标图 ：绘制每个迭代和集成模型的准确率、精确率和召回率。

5. 实际应用建议

数据预处理 ：在实际应用中，数据预处理是非常重要的一步。要确保数据的质量，去除噪声和异常值，避免对模型性能产生负面影响。
模型选择 ：根据具体的问题和数据特点选择合适的模型和特征提取方法。可以尝试多种模型和方法，并进行比较和评估，选择最优的方案。
超参数调优 ：模型的性能往往受到超参数的影响。可以使用网格搜索、随机搜索等方法进行超参数调优，找到最优的超参数组合。
集成方法 ：集成方法可以将多个模型的预测结果进行综合，从而提高模型的性能。可以尝试不同的集成方法，如Bagging、Boosting和Stacking等。

通过以上的介绍，我们对自然语言处理和深度学习中的集成分类方法有了更深入的了解。在实际应用中，我们可以根据具体的问题和数据特点，灵活运用这些方法和技术，提高模型的性能和准确性。