自然语言处理系列（2）——文本分类入门与实战

最新推荐文章于 2025-10-23 21:40:41 发布

原创最新推荐文章于 2025-10-23 21:40:41 发布 · 952 阅读

18 ·

CC 4.0 BY-SA版权

文章标签：

#自然语言处理 #分类 #人工智能

自然语言处理系列专栏收录该内容

7 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

自然语言处理系列（2）——文本分类入门与实战

文本分类（Text Classification）是自然语言处理中的一个核心任务，目标是将给定的文本分配到一个或多个类别中。常见的应用包括垃圾邮件过滤、情感分析、新闻分类等。在本篇博客中，我们将从基础知识出发，介绍文本分类的常见方法，并通过代码示例展示如何使用 Python 进行文本分类任务。

1. 文本分类的基本概念

文本分类的目标是根据文本内容将其分配到预定义的类别中。例如，在情感分析任务中，我们的目标是判断一段文本是表示积极情感、消极情感还是中立情感。

常见的文本分类任务包括：

情感分析：判断文本的情感倾向（积极、消极、中立）。
新闻分类：根据新闻的内容将其分类为不同的类别，如体育、政治、科技等。
垃圾邮件检测：判断一封电子邮件是否为垃圾邮件。

2. 文本分类模型

2.1 传统机器学习模型

在深度学习方法普及之前，文本分类常常使用传统的机器学习模型，如：

朴素贝叶斯分类器（Naive Bayes）
支持向量机（SVM）
K-近邻（KNN）

这些模型通常依赖于手工设计的特征，如词袋模型（Bag of Words）或 TF-IDF。

示例代码：使用朴素贝叶斯进行文本分类

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split
from sklearn import metrics

# 示例数据
texts = ["我喜欢这部电影", "这部电影太差了", "非常棒的演出", "不喜欢这个故事"]
labels = [1, 0, 1, 0]  # 1为积极情感，0为消极情感

# 文本向量化
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(texts)

# 切分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, labels, test_size=0.3, random_state=42)

# 训练模型
model = MultinomialNB()
model.fit(X_train, y_train)

# 预测
y_pred = model.predict(X_test)

# 评估
print("准确率: ", metrics.accuracy_score(y_test, y_pred))

2.2 深度学习模型

近年来，深度学习方法在文本分类任务中表现优异，尤其是在大规模数据集上。常用的深度学习模型包括：

卷积神经网络（CNN）：用于提取文本中的局部特征，尤其在句子分类中表现良好。
循环神经网络（RNN）：适用于处理序列数据，可以捕捉文本中的时间依赖性。
BERT：基于 Transformer 的预训练模型，通过微调（Fine-tuning）用于具体的文本分类任务，通常能够提供更好的性能。

3. 使用深度学习进行文本分类

我们可以使用深度学习框架（如 TensorFlow 或 PyTorch）来进行文本分类。以下是一个使用 Keras 和 LSTM（长短期记忆网络）进行情感分析的示例。

示例代码：使用 LSTM 进行情感分析

import numpy as np
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, LSTM, Dense, Dropout
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

# 示例数据
texts = ["我喜欢这部电影", "这部电影太差了", "非常棒的演出", "不喜欢这个故事"]
labels = [1, 0, 1, 0]  # 1为积极情感，0为消极情感

# 文本预处理
tokenizer = Tokenizer(num_words=10000)
tokenizer.fit_on_texts(texts)
X = tokenizer.texts_to_sequences(texts)
X = pad_sequences(X, padding='post')

# 构建LSTM模型
model = Sequential()
model.add(Embedding(input_dim=10000, output_dim=128, input_length=X.shape[1]))
model.add(LSTM(units=64, dropout=0.2, recurrent_dropout=0.2))
model.add(Dense(1, activation='sigmoid'))

# 编译模型
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])

# 训练模型
model.fit(X, np.array(labels), epochs=5, batch_size=2)

# 预测
predictions = model.predict(X)
print(predictions)

2.3 使用 BERT 进行文本分类

BERT 是一种强大的预训练语言模型，已经在许多 NLP 任务中取得了突破性的成果。通过微调 BERT，我们可以在文本分类任务中获得优异的效果。

以下是使用 Hugging Face transformers 库来微调 BERT 的代码示例：

示例代码：使用 BERT 进行文本分类

from transformers import BertTokenizer, TFBertForSequenceClassification
from tensorflow.keras.optimizers import Adam
from sklearn.model_selection import train_test_split

# 示例数据
texts = ["我喜欢这部电影", "这部电影太差了", "非常棒的演出", "不喜欢这个故事"]
labels = [1, 0, 1, 0]  # 1为积极情感，0为消极情感

# BERT tokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')
inputs = tokenizer(texts, padding=True, truncation=True, return_tensors='tf')

# 切分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(inputs['input_ids'], labels, test_size=0.3, random_state=42)

# 构建BERT模型
model = TFBertForSequenceClassification.from_pretrained('bert-base-chinese', num_labels=2)
model.compile(optimizer=Adam(learning_rate=1e-5), loss='sparse_categorical_crossentropy', metrics=['accuracy'])

# 训练模型
model.fit(X_train, np.array(y_train), epochs=3, batch_size=2)

# 评估模型
model.evaluate(X_test, np.array(y_test))

4. 小结

本文介绍了文本分类的基本概念、常见模型（如朴素贝叶斯、LSTM、BERT）以及如何使用 Python 和深度学习框架实现这些模型。文本分类是 NLP 中的一个核心任务，掌握其基本方法对理解更复杂的 NLP 技术至关重要。在实际应用中，我们可以根据数据的规模和任务的复杂性选择合适的模型，并通过微调预训练模型获得更好的性能。

在下篇博客中，我们将深入探讨文本分类中的一些进阶技术和优化方法，如模型集成与超参数调优。

参考文献

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A., Kaiser, Ł., & Polosukhin, I. (2017). “Attention is All You Need.” NeurIPS.
Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2018). “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.” arXiv:1810.04805.

您可能感兴趣的与本文相关的镜像