【深度学习】基于BERT的文本情感分类模型---应用（附源代码+数据集+预训练模型）

是橙光呀

已于 2024-12-14 23:41:46 修改

阅读量5.2k

点赞数 65

文章标签：深度学习 bert 分类自然语言处理人工智能

于 2024-07-22 10:22:43 首次发布

本文链接：https://blog.youkuaiyun.com/qq_74144402/article/details/140599619

版权

【深度学习】基于BERT的文本情感分类模型—应用（附源代码+数据集+预训练模型）

文章目录

【深度学习】基于BERT的文本情感分类模型---应用（附源代码+数据集+预训练模型）

一、BERT介绍

BERT的全称为Bidirectional Encoder Representation from Transformers，是一个预训练的语言表征模型，它强调不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练。它旨在通过在所有层中对左右上下文进行联合调节，采用新的masked language model（MLM），用于语言理解的深度双向转换器的预训练，从未标记的文本中预训练深度双向表示。因此，只需一个额外的输出层即可对预训练的 BERT 模型进行微调，从而为各种任务（例如问答和语言推理）创建较为先进的模型，而无需对特定于任务的架构进行大量修改。

二、基于BERT实现文本情感分类

2.1 文本情感分类任务

2.1.1 任务介绍

文本情感分类（Text Sentiment Classification）是一种自然语言处理（NLP）任务，其目标是确定给定文本的情感倾向。这种分类通常包括以下几类：

情感分类
正面情感（Positive Sentiment）	文本表达了积极的情绪或观点，例如快乐、满意、赞扬等。
负面情感（Negative Sentiment）	文本表达了消极的情绪或观点，例如愤怒、不满、批评等。
中性情感（Neutral Sentiment）	文本既不表达强烈的正面情绪，也不表达强烈的负面情绪，通常是客观陈述。
其他情感类别（Optional）	一些任务可能包括更多细分类别，例如愤怒、悲伤、惊喜等。

2.1.2 应用场景

文本情感分类在各种应用场景中有着广泛的应用，包括但不限于：

产品评价分析：分析用户对产品或服务的评价，以了解用户满意度。
社会媒体监控：监控社交媒体上的情感倾向，了解公众舆论。
市场研究：评估市场反馈，帮助企业进行市场决策。
客服自动化：识别客户情感，以便更好地提供支持和服务。

2.2 模型设计总体思路

本文提出一种基于BERT（Bidirectional Encoder Representations from Transformers）的深度学习模型来实现文本情感分类。以下是整体设计思路。

2.2.1 数据准备

2.2.1.1 读取数据

从CSV文件中读取评论和标签数据。使用pandas库进行数据处理，去除重复项和无效数据。打乱数据顺序，并只取前300条数据进行实验。

2.2.1.2 数据清理

将标签数据转换为整数类型，并去除无法转换的无效标签。打印唯一标签值，确保数据标签的有效性和多样性。

2.2.2模型设计

2.2.2.1 BERT 模型

使用预训练的BERT模型进行文本表示，该模型能够捕捉文本中的复杂语义信息。
加载BERT模型时，指定预训练模型的缓存路径以提高加载速度。

2.2.2.2 分类层

在BERT模型的输出之后添加一个全连接层（MLP），用于将BERT的输出转换为情感分类结果。

2.2.3 模型训练

2.2.3.1 数据集划分

将数据集划分为训练集和测试集，比例为80%:20%。

2.2.3.2 模型训练函数

初始化BERT分类器、损失函数（交叉熵损失）和优化器（SGD优化器）。
将模型和数据加载到GPU（若可用）或CPU。
在训练开始前，评估未训练模型在训练集和测试集上的性能。
进行多个训练周期（epoch），每个周期内对训练数据进行批次训练，计算损失，进行反向传播和优化。
在每个周期结束时，评估模型在训练集和测试集上的性能，并保存性能最好的模型参数。

2.2.4.模型评估

2.2.4.1 评估函数

定义evaluate函数，用于在评估模式下计算模型在数据集上的准确率。
在评估过程中，关闭梯度计算，提高评估效率。
对评估数据进行批次处理，计算预测结果与真实标签的匹配情况，输出模型的准确率。

2.2.4.2 预测与输出

使用训练好的模型对测试数据进行预测，并输出每条评论的预测结果和实际结果，比较预测是否正确。

2.3 模型模块化设计

2.3.1 导入必要的库

import csv
import pandas as pd
import random
from sklearn.model_selection import train_test_split
import torch
from torch import nn
from transformers import BertTokenizer, BertModel
from tqdm import tqdm
import os
import numpy as np

""" 设置缓存目录 """
os.environ['TRANSFORMERS_CACHE'] = 'D:/Python Project_2024_7_20_BERT/cache'  # 用于缓存预训练的BERT模型

2.3.2 读取和清理数据

""" 设置数据集 """
def read_file(file_name):
    print("开始读取文件...")
    comments_data = None
    with open(file_name, 'r', encoding='UTF-8') as f:
        reader = csv.reader(f)
        comments_data = []
        for line in reader:
            if len(line[0]) > 0:
                comments_data.append([line[0], line[1]])

    # 只取前300条数据
    comments_data = comments_data[:300]
    # 打乱数据集，并删除重复项
    random.shuffle(comments_data)
    data = pd.DataFrame(comments_data, columns=['Comment', 'Label'])
    data = data.drop_duplicates()
    data = clean_labels(data)
    print("文件读取完成.")
    return data

""" 定义清理标签函数 """
def clean_labels(df):
    df['Label'] = pd.to_numeric(df['Label'], errors='coerce')
    df = df.dropna(subset=['Label'])
    df['Label'] = df['Label'].astype(int)
    print("清理后的标签:")
    print(df['Label'].unique())  # 打印唯一标签值以确认
    return df

2.3.3 BERT 分类器定义

""" 设置 BERT 分类器类 """
# 将预训练的 BERT 模型和一个用于分类的全连接层结合在一起，提供了一个简单的接口来使用 BERT 进行文本分类任务。
class BERT_Classifier(nn.Module):

    # 加载预训练的 BERT 模型
    # 连接全连接层（分类层）
    def __init__(self, output_dim, pretrained_path='D:/Python Project_2024_7_20_BERT/cache'):
        super(BERT_Classifier, self).__init__()
        print("加载 BERT 模型...")
        self.BERT = BertModel.from_pretrained(pretrained_path)
        self.MLP = nn.Linear(768, output_dim)
        print("BERT 模型加载完成.")

    # 定义前向传播过程
    def forward(self, tokens_X):
        res = self.BERT(**tokens_X)
        return self.MLP(res.pooler_output)  # 将 BERT 模型的输出结果进行池化
                                            # 模型输出结果输入全连接层得到分类结果

2.3.4 评估函数

""" 设置评估函数 """
def evaluate(net, comments_data, labels_data, batch_size, device):

    # 设置模型为评估模式
    net.eval()

    sum_correct = 0
    total_samples = len(comments_data)

    if total_samples == 0:
        print("数据集中没有样本")
        return 0.0

    # 关闭梯度计算
    with torch.no_grad():
        for i in tqdm(range(0, total_samples, batch_size), desc="Evaluating"):
            comments = comments_data[i: i + batch_size]
            comments = list(map(str, comments))
            tokens_x = tokenizer(comments, padding=True, truncation=True, return_tensors='pt')
            tokens_x = {
   key: value.to(device) for key, value in tokens_x.items()}

            # 获取模型预测
            try:
                res = net