使用混合 BERT 模型的情感分析分类系统

最新推荐文章于 2025-09-07 09:36:13 发布

原创最新推荐文章于 2025-09-07 09:36:13 发布 · 2k 阅读

19 ·

CC 4.0 BY-SA版权

文章标签：

#bert #人工智能 #情感分类 #ai大模型 #深度学习 #机器学习 #智能系统

摘要

由于移动技术的迅速发展，社交媒体已成为人们表达观点和意见的重要平台。了解公众意见有助于企业和政治机构做出战略决策。鉴于此，情感分析对于理解公众意见的极性至关重要。大多数社交媒体分析研究将情感分为三类：积极、消极和中性。所提出的模型是一个基于分类问题的机器学习应用，训练于三个数据集上。最近，BERT模型在情感分析中显示出有效性。然而，情感分析的准确性仍需提高。我们提出了四个基于BERT与双向长短期记忆（BiLSTM）和双向门控循环单元（BiGRU）算法相结合的深度学习模型。本研究基于预训练的词嵌入向量，有助于模型的微调过程。所提出的方法旨在提高准确性，并检验 BIGRU 和 BILSTM 混合层在两个 BERT 模型（DistilBERT、 RoBERTa）上的效果，包括无表情符号（文本情感分类器）的情况以及带有表情符号的情况。将所提出的方法与两个预训练的 BERT 模型以及为相同任务使用经典机器学习的其他七个模型进行了比较。具有 BiGRU 层的所提出的架构具有最佳结果。

作者提出了四个基于BERT与双向长短期记忆（BiLSTM）和双向门控循环单元（BiGRU）算法相结合的深度学习模型。同时基于预训练的词嵌入向量，提高了模型的微调能力。最后将所提出的方法与两个预训练的 BERT 模型以及为相同任务使用经典机器学习的其他七个模型进行了比较。具有 BiGRU 层的所提出的架构具有最佳结果。

预训练的词嵌入向量是自然语言处理（NLP）中常用的一种技术，它通过将词汇映射到高维空间中的连续向量来表示词汇的语义信息。这些向量捕捉了词汇之间的相似性和关系，使得计算机能够理解和处理自然语言。

关键词：智能系统、情感分类、机器学习系统、情绪分类、人工智能、深度学习、BERT 模型、数据科学、机器学习应用。

引言

情感分析（SA）是自然语言处理（NLP）的一个分支，专注于分析人们的观点、感受和情绪。SA是一个多步程序，包括数据检索、提取、预处理和特征提取。随着社交媒体评论在众多行业的快速扩张，对这种海量互联网数据的实时关注以及自动提取有用信息的需求日益强烈。在这项任务中，情感分析模型发挥着重要作用。许多领域，包括政治挑战、市场营销、公共政策、灾害管理和公共卫生，都依赖于情感检测[1]。基于图像和面部表情的情绪识别软件的广泛使用[2-5]。人类动作识别已被用于识别手势[6]。人机交互也可用于研究情感识别模型[7 - 9]。来自社交网络的情感丰富的文本数据可被处理以用于广泛的实际用途[10 - 12]。

庞等人[13]是第一个使用机器学习技术进行情感分析的研究者。他们在一个电影评论数据集上进行了测试，使用了朴素贝叶斯、最大熵和支持向量机（SVM）等监督分类器。与标准的文本分类相比，这些分类器在情感分类方面的表现较差。主要原因可能是它们通常适用于传统的文本分类方法，其中文档中的单词被视为词袋（BOW）概念。BOW不存储语法结构、词序或单词之间的语义关系，这些对于情感分析至关重要[14]。许多研究使用机器学习技术进行情感分析，如贝叶斯网络[15]、朴素贝叶斯[16]、支持向量机[17,18]、决策树[19,20]以及人工神经网络[21]。新数据的低可扩展性是一个缺点，因为它需要可用的标记数据，这可能很昂贵，甚至令人望而却步[22]。

由于深度学习的优势，不同的研究人员在人工神经网络中使用了不同类型的自注意力机制。这些优势包括[23]：通过从训练数据中的一小部分特征创建新特征来自动生成特征，从而能够更好地泛化；以及可扩展性，深度学习分析大量数据并进行大量计算，这在成本和时间上是有效的。[24]提出了一种动态神经网络，作者用不同的卷积神经网络变体和最大池化动态 K 算子进行了实验。索切尔[25]在另一项研究中利用该模型产生了与深度卷积神经网络相当的结果。[26]全面概述了最常见的卷积神经网络、长短期记忆网络和其他用于方面级情感分析的深度学习方法。刘和沈[27]引入了门控交替神经网络（GANN）作为一种独立的神经网络模型，以解决先前提出的模型中存在的几个缺陷，包括在收集有意义的情感表达时存在噪声，并产生了改进的结果。对于金融情感研究，阿赫塔尔[28]提出使用多层感知机将深度学习和基于特征的方法结合起来。他们基于卷积神经网络（CNN）、长短期记忆网络（LSTM）和门控循环单元（GRU）创建了几个深度学习模型。在另一项研究中，潘[29]采用混合策略，使用多层感知机（MLP）对文本进行定位，并取得了良好的结果。卡鲁库什[30]通过构建具有不同层大小的模型变体以及词嵌入方法，分析了众多深度学习模型在训练和测试阶段的性能。他们通过使用 LSTM、CNN、双向长短期记忆网络（BILSTM）和卷积神经网络与长短期记忆网络的结合（CNNLSTM）改进了结果。此外，他们使用多层感知机进行分类，并在电影评论数据集上实现了 78%的测试准确率。在另一项研究中，使用来自互联网电影数据库（IDMB）的评论数据集进行情感分类，在训练过程中使用多层感知机，结果很有希望[31]。大多数深度学习情感分类工作都是在经过审查的数据集上进行的，以获得更好的结果。在测试阶段，应该使用基于推特数据集的情感分类混合方法来获得尽可能好的结果。

我们可以利用机器学习和深度学习的优势来克服这两种方法的缺点，从而得出更准确且计算成本更低的解决方案[32]。混合模型显示出准确性的提高，并为系统带来了更高的效率和性能。

尼米[33]提出了 AVEDL（平均投票集成深度学习模式）模型，该模型使用预训练的基于 Transformer 的模型 BERT、DistilBERT 和 RoBERTa（ERSS）来分析紧急响应援助系统中接到的电话内容。通过实现宏观平均 F1 分数为 85. 20%，准确率为 86.46%，AVEDL 模型击败了典型的深度学习和机器学习模型。该模型的缺点是，在计算与新冠病毒相关的情绪时，它没有很好地考虑俚语和口语。

阿多玛[34]研究了预训练的Transformer模型BERT、RoBERTa、DistilBERT和 XLNet在识别文本情感方面的表现。在ISEAR数据集上，对实施的模型进行了微调，以区分喜悦、羞辱、内疚、恐惧、愤怒、厌恶和悲伤。这些模型在检测文本情感方面是有效的。RoBERTa的准确率最高，为0.74。该模型应该具有通用性。

对于情感分析，乌达吉里[35]将 RoBERTa 与基于方面的情感分析（ABSA）、 RoBERTa 以及长短期记忆网络（LSTM）相结合。他们使用乌克兰冲突的推特数据集。他们研究了乐观、悲伤、愤怒和喜悦等情绪。准确率为 94.7%。班萨尔[36]提出了一种基于属性的混合技术，通过使用词性标签来识别特征来分析消费者的智能。该方法必须以更低的计算成本检测到更多的属性详尽主题。此外，该研究应扩展到包括短文本分类和混合方法，以及消除现有词典中对特定属性词汇的人工标注。

马等人[37]利用长短期记忆（LSTM）模型，基于某些方面利用常识知识开发了一种分类方法。他们通过将 LSTM 和循环相加网络相结合来改进 Sentic LSTM。王[38]使用混合 ARM 隐式提取特征，并采用了五种策略来使用它们。由于上下文忽略了隐性词汇，只恢复了显性方面。F 度量达到了 75.51%。这种方法的缺点：混合关联规则挖掘中有一些方面在实践中难以控制。扎因丁[39]采用了支持向量机（SVM）+主成分分析（PCA），并添加了词性标签作为特征提取器，在短文本相似度（STS）和短文本分类（STC）数据集上获得了高精度。该情感分类器方法分别比现有的基准情感分类方法高出76. 55%、71.62%和74.24%。该方法不适用于其他社交媒体数据源，如YouTube和 Facebook。

在[40]中，将孟加拉语 BERT 与 LSTM 相结合，准确率达到 94.15%。他们应该采用一种复杂的深度学习算法，在一个更丰富、更平衡的数据集上进行工作。

BERT-DCNN 模型由[41]提出，该模型将 BERT 与扩张卷积神经网络（DCNN）堆叠在一起，以生成一个更强大的情感分析模型。对于推特航空公司的情感数据，该模型的准确率为 87.1%。这种策略主要局限于从单一来源接收的数据，而非从多个来源获取的数据。

推文可以包含各种数据类型，包括新闻、媒体、转发和回复帖子，它们可以以音频、视频或图像的形式呈现。通过允许和鼓励众多参与者在公共平台上进行讨论，推特使您能够从用户和潜在客户那里获得快速反馈。因为每个人都能看到你在推特上所说的话，这促进了交流中的透明度和责任感[42]。基安[43] 作者在情感航空数据集上应用了一个基于 RoBERTa-LSTM 的模型，在没有数据增强过程的情况下获得了 89.85%的准确率，而在对少数类别进行超采样添加数据增强过程后，准确率达到了 91.37%。数据集被分为 6:2:2 的比例用于训练、验证和测试，使用 Adam 优化器，学习率为 0.00001，批次大小设置为 64，训练 30 个周期。

作者提出了一种卷积神经网络-长短期记忆网络（CNN-LSTM）架构，并在情感航空数据集上获得了91.3%的准确率[44]。他们只考虑了从在线平台获取的数据，这些数据是以英语句子形式存在的。因此，其他语言的消费者评论不包括在情感分析中。他们将消费者情感分为两类（积极和消极）。他们从数据集中剔除了中性情感数据，因此他们的分类结果很高。

巴卡特[45]提出了一种新颖的 ULMFit-SVM 模型来提高情感分析性能。该模型在推特美国航空公司数据集上的准确率为 99.78%，在 IMDB 数据集上的准确率为 99.71%，在共和党辩论数据集上的准确率为 95.78%。情感分析仅限于文档级别。他们没有考虑方面级别的情感。对于推特数据集，三个类别（积极、消极、自然）中的每一个类别分别被分为 66%的训练集和 33%的测试集，使用 Adam 优化器，学习率分别为 0.004 和 0.01，进行微调，分 64 个批次。

推文通常只包含几个具有实际意义的词，而这些词在分类阶段至关重要。BERT 模型在推文的情感分析中已证明其有效性。然而，准确性仍需提高。我们提出了一种基于 BERT 的混合多特征融合短文本分类模型。该技术由三部分组成：BERT、双向长短期记忆网络（BiLSTM）和双向门控循环单元（BiGRU）。BERT 用于训练动态词向量以改善短文本的词表示。BiLSTM 和 BiGRU 有助于提取和学习句子序列特征。我们还研究了改变（BiLSTM 和 BiGRU）层的数量和位置对性能的影响以提高性能。

本研究的贡献总结如下：

我们为应用于三个数据集的情感分类提出了四个混合创新深度学习模型。对 RoBERTa 的四个模型和 DistilBERT 的四个模型进行了比较，以选择最佳的混合模型，该模型能够从文本中提取上下文信息。
在微调过程中，使用双向门控循环单元（BiGRU）和双向长短期记忆网络（BiLSTM）从文本中提取上下文信息。
我们在表情符号数据集上采用训练模型，然后通过在预处理阶段删除表情符号并训练相同模型来测试表情符号作为分类线索的优势这一假设，并观察其影响。

以下是本文的安排方式。“方法论”部分解释了用于测量推文情感元素的建议技术。“实验与结果”部分重点突出并讨论了最重要的发现。最后，“结论与未来工作”部分总结了研究结果，并探讨了未来的研究方向。

1. 情感分析概述

情感分析（SA）是自然语言处理（NLP）的一个重要分支，旨在解析人们的观点、情感和情绪。随着社交媒体评论的迅速增加，实时处理这些大量数据以提取有用信息的需求不断上升。情感分析模型在多个领域（如政治、市场营销、公共政策、灾害管理和公共卫生）中起着关键作用。

2. 方法论

数据处理步骤：

数据检索
特征提取与预处理
使用不同的机器学习和深度学习技术进行情感分类。

传统机器学习方法：

早期研究（如庞等人）使用了朴素贝叶斯、最大熵和支持向量机（SVM）等方法，但在情感分类上表现较差，主要因为这些方法依赖词袋（BOW）模型，未能捕捉到语法结构和词序。

深度学习的引入：

随着深度学习技术的发展，研究人员开始使用自注意力机制和各种神经网络（如卷积神经网络CNN、长短期记忆网络LSTM）来处理情感分析任务。这些模型通过自动生成特征和处理大量数据，实现了更好的泛化能力和高效性。

3. 关键研究与模型

模型创新：

动态神经网络：通过不同的卷积神经网络变体进行实验，显示出在特征提取方面的进步。
门控交替神经网络（GANN）：旨在解决传统模型中的噪声问题，改进了情感表达的捕捉。

结合不同技术：

阿赫塔尔提出结合深度学习与基于特征的方法，通过CNN、LSTM和GRU创建多个模型。
混合策略使用多层感知机（MLP）进行文本定位，显示出良好的结果。

综合模型：

AVEDL模型：结合预训练的Transformer模型（如BERT、RoBERTa），在紧急响应系统中的应用表现优异。
RoBERTa与LSTM结合：在处理乌克兰冲突的推特数据时，准确率达到94.7%。

4. 实验与结果

模型表现：

多项研究在特定数据集（如IMDB、推特数据集）上验证了不同模型的性能，准确率普遍较高。
例如，使用CNN-LSTM架构在情感航空数据集上取得91.3%的准确率。

表情符号的影响：

研究探讨了表情符号对情感分类的作用，通过预处理去除表情符号并进行比较，以观察其对分类性能的影响。

本研究贡献了多个创新的混合深度学习模型，比较了不同模型在情感分析中的有效性，强调了上下文信息的重要性，并探索了表情符号的影响。通过这些研究，推动了情感分析领域的发展，并为未来的研究提供了新的视角。

方法论

本节讨论了我们用于创建基于用户推文预测其情绪框架的方法。该框架构建的结构如图 1 所示。

在本节中，我们将介绍用于构建从用户的推文中预测其情绪的框架的技术。

数据集

这些推文通过来自 HuggingFace 网站的两个 BERT 模型（BERT 和 BERTmini）被表示为特征向量：

1- “Twitter-RoBERTa-Base-Sentiment”，即“BERTBase”：这是一个基于 RoBERTa 的模型，在经过 5800 万条推文的训练后，使用 TweetEval 基准在情感数据集上进行微调以进行情感分析。该模型适用于英语。RoBERTa 是具有更多超参数选项的 BERT，因此他们在预训练期间将其称为稳健优化的BERT。

2 - “DistilBERT-Base-Uncased-Emotion”，即 “BERTMini”：DistilBERT 是在预训练阶段通过知识蒸馏构建的，它将 BERT 模型的规模减少了 40%，同时保持了 97%的语言理解能力。它比其他任何基于 BERT 的模型速度更快、规模更小，并且是在情感数据集上进行了微调的。

我们使用 Kaggle 网站上可自由获取的三组数据进行多标签情感分类，如表 1 所示。我们分别对每个数据集进行训练和测试。我们将所有数据集转换为两列，即文本和标签。文本为推文文本，标签为表示情感，有 3 个类别：2 表示积极情感，

1 表示一条中性的推文或评论，0 表示这是一条负面的推文或评论。

航空公司情绪（航空公司）[46]：分析乘客如何使用推特来反映他们的情绪。这是一个有关航空公司困境的情绪分析项目。要求参与者将推文分为积极、中立和消极三类。
苹果情绪（CrowdFlower）[47]：带有情感标签且提及苹果电脑的推文。基于包含 #AAPL、@apple 等内容的推文。了解人们对苹果的感受。给贡献者一条推文，并询问用户认为苹果是积极的、中性的还是消极的。
苹果相关的文本（苹果）[48]：该数据集还包括有关苹果电脑的推文。

数据集

经典的机器学习方法

将七种经典的机器学习方法与八种 BERT/BiGRU/ BiLSTM 方法进行了比较。这些方法包括决策树、k 近邻、随机森林、朴素贝叶斯、支持向量机（SVM）、逻辑回归和 XGBoost 算法。在情感分类模型中，我们通过将预训练的 BERT 模型与 BiLSTM 和 BiGRU 堆叠，使用了多种组合。该项目的主要目标是在多个数据集上将情感分类为积极、消极和中性。

首先，我们将所有数据集转换为两列，即文本和情感。情感有 2（积极）、1 （中性）和 0（消极）。

在此之后，我们从 Hugging Face 导入预训练的 BERT 分类器模型 RoBERTa （BERTBase）和 DistilBERT（BERTMini）。

数据清理与预处理

现在我们对文本进行一些预处理，例如规范 Unicode 编码、去除名称、尾随的空格、哈希标签、数字、标点和网址。此外，在没有表情符号处理方法的情况下，表情符号也会被去除。

在对文本列进行预处理之后，我们对每个句子进行分词，并为每行文本生成输入 ID 和注意力掩码。

提议的模型

现在我们通过在不同的 BERT 模型上堆叠一些双向门控循环单元（BiGRU）和双向长短期记忆网络（BiLSTM）的组合来准备实际的模型，如图 2 所示。

以下是详细使用的八个模型：

DistilBERT-3G：DistilBERT-3×双向门控循环单元（BiGRU）
DistilBERT-3L：DistilBERT-3×双向长短期记忆网络
DistilBERT-GLG：DistilBERT-双向门控循环单元×双向长短期记忆网络×双向门控循环单元

DistilBERT-LGL：DistilBERT - 双向长短期记忆网络×双向门控循环单元×双向长短期记忆网络

RoBERTa-3G：RoBERTa-3×双向门控循环单元（BiGRU）

RoBERTa-3L：RoBERTa-3×双向长短期记忆网络

RoBERTa-GLG：RoBERTa-双向门控循环单元（BiGRU）×双向长短期记忆网络（BiLSTM）×双向门控循环单元（BiGRU）

RoBERTa-LGL：RoBERTa - 双向长短期记忆网络×双向门控循环单元×双向长短期记忆网络

图 2 中八种混合方法的参数修改如下：

• 我们首先从（Hugging_Name）Hugging Face 实例化一个（Model_Name）预训练模型。

• 这个（模型名称）模型的输出有（N）个特征，所以我们创建了一个（双 Z 型）层，并将这（N）个特征与 250 个隐藏特征一起传入。从这个（Bi‘Z’）层，我们得到了 500 个特征作为输出。

•我们创建第二个（Bi‘W’）层，并将这 500 个特征与 150 个隐藏特征一起传入。从这个（Bi‘W’）层，我们得到了 300 个特征作为输出。•我们创建第三个（Bi‘Z’）层，并将这 300 个特征与 50 个隐藏特征一起传递进去。从这个（Bi‘Z’）层，我们得到了 100 个特征作为输出。

然后我们应用 ReLU 激活函数，并将其（Bi‘Z’）层转换为具有三个类别（2、 0 和 1）输出（正、负和中性）的线性层。

这些模型是用这些预定义的参数进行初始化的：优化器为 AdamW，学习率为 5e-5，epsilon 值为 1e-8，训练轮次为 10 轮，批量大小为 16。现在我们设定损失为“交叉熵损失”，并让模型进行训练。train 函数会在每批训练后评估训练损失和验证损失，并在每轮训练后评估准确率。

在为这三个数据集去除表情符号后，所有八个模型再次运行。

作者描述的研究设计使用了堆叠的双向门控循环单元（BiGRU）和双向长短期记忆网络（BiLSTM）与预训练的BERT模型相结合，这种方法旨在通过混合不同的神经网络结构来进一步增强情感分析模型的性能。以下是对模型设计和训练过程的更详细说明：

模型结构和堆叠方式

使用的八个模型在 DistilBERT 和 RoBERTa 的基础上，堆叠了 BiGRU 和 BiLSTM 网络层，形成了不同的组合。这些模型分别是：

DistilBERT-3G：DistilBERT + 3个BiGRU层
DistilBERT-3L：DistilBERT + 3个BiLSTM层
DistilBERT-GLG：DistilBERT + BiGRU层 + BiLSTM层 + BiGRU层
DistilBERT-LGL：DistilBERT + BiLSTM层 + BiGRU层 + BiLSTM层
RoBERTa-3G：RoBERTa + 3个BiGRU层
RoBERTa-3L：RoBERTa + 3个BiLSTM层
RoBERTa-GLG：RoBERTa + BiGRU层 + BiLSTM层 + BiGRU层
RoBERTa-LGL：RoBERTa + BiLSTM层 + BiGRU层 + BiLSTM层

每个模型层的详细参数

第一层（Bi‘Z’层）：

输入：模型输出的 N 个特征。
隐藏特征数：250个。
输出：500个特征。

第二层（Bi‘W’层）：

输入：500个特征。
隐藏特征数：150个。
输出：300个特征。

第三层（Bi‘Z’层）：

输入：300个特征。
隐藏特征数：50个。
输出：100个特征。

这些特征在每一层中被提取和缩减，最终应用ReLU激活函数。然后，最后一层将这些特征映射到三类输出：正向（2）、负向（0）和中性（1）。

训练参数

模型使用了以下的超参数进行训练：

优化器：AdamW
学习率：5e-5
epsilon：1e-8
训练轮次：10轮
批量大小：16

训练时，使用了交叉熵损失函数来优化模型，并且在每一批次后，评估训练损失和验证损失。在每轮训练后，还会评估准确率以衡量模型的表现。

实验设计

在去除表情符号后，你将这八个模型重新运行，用于三个不同的数据集。这表明你不仅在研究这些神经网络的性能，还在评估表情符号作为文本情感分类线索的影响。

结论与进一步思考

这种多层双向RNN（BiGRU/BiLSTM）与BERT模型的混合策略可以有效捕捉序列信息和上下文关系，尤其是在短文本情感分析中表现较为突出。通过对模型的层数、特征数和网络堆叠的实验，能够帮助你找到最佳的模型结构。

如果有其他问题或者需要深入讨论某些部分，随时告诉我！

实验与结果

在本研究中，我们应用了三个数据集来训练分类器、验证系统并进行测试。数据被分为三组：80%用于训练，10%用于验证，10%用于测试。这项工作是在 Kaggle 上完成的，使用的是 2.3GHz 的英特尔（R）至强（R）CPU、英伟达 P100 GPU 和 16GB 的内存。

评估标准

总体分类效率是通过多种评估因素得出的。为了基于中性、负面和正面类别来评估文本的情感，确立了四个评估标准：准确率标准（公式（1））、召回率（公式（2））、精确率（公式（3））和 F 度量（公式（4））。考虑了四个功能性准确性度量标准：假阳性（FP）、真阳性（TP）、假阴性（FN）和真阴性（TN）。以下是用于分析我们建议的系统性能的测试参数：

假阳性（FP）、真阳性（TP）、假阴性（FN）和真阴性（TN）是分类模型评估中常用的四个基本指标，特别是在二分类任务中。它们的定义如下：

真阳性（TP, True Positive）：

正确地预测为正类的样本数量。例如，在情感分析中，TP指的是正确预测为“积极”情感的样本数量。

假阳性（FP, False Positive）：

错误地预测为正类的样本数量。即实际为负类但被预测为正类的样本。例如，模型将一个“消极”评论错误地分类为“积极”。

假阴性（FN, False Negative）：

错误地预测为负类的样本数量。即实际为正类但被预测为负类的样本。例如，模型将一个“积极”评论错误地分类为“消极”。

真阴性（TN, True Negative）：

正确地预测为负类的样本数量。即实际为负类且被正确预测为负类的样本。

结果与图表

这三个数据集使用经典的机器学习方法进行训练，以获得最佳的测试经典分类器，即逻辑回归和支持向量机，对于航空、CrowdFlower 和苹果数据集，其准确率分别为 80.62、73.73 和 84.05，如表 2 所示。

我们使用带有和不带有表情符号的这八种模型进行运行。所有结果均如表 3 所示。八种模型之间的对比图如图 3、4、5 所示。每个数据集的最佳四种方法（带有表情符号的 DistilBERT、不带表情符号的 DistilBERT、带有表情符号的 RoBERTa 和不带表情符号的 RoBERTa）的 ROC 曲线如图 6、7、8 所示。

我们发现将 BIGRU 层与（DistilBERT 和 RoB-ERTa）相结合能获得更高的准确性，因为 BIGRU 由于其结构比 BILSTM 更简单，所以效率更高。对于航空公司的数据集表3和图3，在表情符号和无表情符号的情况下，最佳准确率的方法是GLG，分别为83.74%和83.47%。在DistilBERT中，BiGRU层在处理大型数据集时表现良好。在这里，我们有两个BiGRU层和一个BiLSTM层（GLG）。

对于航空公司的数据集，RoBERTa-3G 是准确率最高的方法，在表情符号的情况下准确率为 86%，但当我们去除表情符号时，GLG 是准确率最高的模型，准确率为 85.93%。与 DistilBERT 一样，RoBERTa 在处理大型数据集时，使用双向门控循环单元（BiGRU）层也能表现出色。在此

对于表情符号，我们有三个双向门控循环单元（BiGRU）层（3G）；对于不含表情符号的情况，我们有两个双向门控循环单元层和一个双向长短期记忆网络（BiLSTM）层（GLG）。

与带有表情符号的 DistilBERT 和 RoBERTa 相比，不含表情符号的航空公司的准确性受到影响并下降。

这是意料之中的，因为该模型是从表情符号中学习的，而这是不期望的行为（我们想要一个文本情感分类器）。

对于 Crowdflower 数据集表 3 和图 4，在表情符号和无表情符号两种情况下，对于 DistilBERT 而言，准确率最高的最佳方法均为 GLG，分别为 80.42%和 79.24%。在 DistilBERT 中：BiGRU 层在中等规模的数据集中表现良好。在此，我们有两个 BiGRU 层和一个 BiLSTM（GLG）。

对于 Crowdflower 数据集，单独的 RoBERTa 在表情符号案例中准确率最高，为 82. 39%，但当我们去除表情符号时，3L 是准确率最高的模型，准确率为 81.34%，GLG 是准确率为 80.55%的次优模型。

与带有表情符号的 Distil-BERT 和 RoBERTa 相比，没有表情符号的 Crowdflower 的准确性受到影响并下降。对于没有表情符号的中等规模数据集（3G），带有三个双向长短期记忆网络（BiLSTM）层的 RoBERTa 表现良好。

对于苹果数据集（表 3 和图 5），这是最小的数据集，最佳准确率的方法是 LGL，准确率为 86.81%，而 GLG 是准确率第二高的模型，准确率为 85.89%。

对于带有表情符号的 DistilBERT 模型。在没有表情符号的情况下，GLG 模型具有最高的准确率，为 88.04%。对于带有表情符号的小型数据集，DistilBERT 模型中双双向 LSTM 层加一个双向 GRU 层（LGL）表现良好，但对于没有表情符号的情况，两个双向 GRU 层和一个双向 LSTM 层（GLG）的模型效果更好。

对于苹果数据集，单独的 RoBERTa 在表情符号的情况中表现最佳，准确率为 91. 72%，但当我们去除表情符号时，3G 是准确率最高的模型，准确率为 91.72%，GLG 是准确率第三的模型，准确率为 90.18%。对于带有小数据集的 RoBERTa，我们为表情符号设置了三个双向门控循环单元（BiGRU）层（3G）。

GRU 的性能与 LSTM 相当，但在计算上更高效，因为它们的结构没那么复杂。

我们证明，除了带有表情符号的小型数据集（Apple）外，在大多数 DistilBERT 数据集上，BiGRU（GLG 和 3G）的混合层表现更好。在不使用表情符号的情况下，将 BiGRU（GLG 和 3G）的层与 RoBERTa 混合使用效果更好，尤其是对于大型（航空公司）和小型（苹果）数据集。总的来说，如图 3、4、5 所示，RoBERTa 比 DistilBERT 的准确率更高，因为 RoBERTa 是一个更大的模型，提高了性能。

总的来说，对于这三个数据集，除了带有表情符号的苹果数据集外，无论是否包含表情符号，DistilBERT_GLG 都是最佳模型。此外，在不包含表情符号的情况下， RoBERTa_ GLG 在航空公司的数据集上准确率最高，在 Crowd-Flower 的数据集上准确率位居第二，在苹果数据集上准确率位居第三。因此，由于每个数据集的主题不同，每个数据集的响应也有所不同，但总体而言， RoBERTa GLG 被认为对所使用的三个数据集都有良好的效果。不含表情符号的 RoBERTa_GLG 在大型数据集上的表现优于小型数据集，而在小型数据集上，RoBERTa_3G 和 RoBERTa_3L 表现更佳。因此，不含表情符号的 RoBERTa 模型与我们提出的方法配合良好

在苹果数据集中，DistilBERT_GLG 的准确率高于单独的 DistilBERT，为 1.84%。DistilBERT_GLG 的准确率远高于逻辑回归和支持向量机。在四个 DistilBERT 模型中，表现最佳的是 GLG，准确率为 88.04%。在四个 RoBERTa 模型中，表现最佳的是 3G，准确率为 91.72%。

在进行情感分析的研究中，我们使用了三种数据集：航空公司、CrowdFlower 和苹果数据集，采用经典的机器学习方法（逻辑回归和支持向量机）进行训练，以获得最佳的测试分类器。这些方法在三个数据集上的准确率分别为 80.62%、73.73% 和 84.05%。

接下来，我们使用八种不同的模型进行运行，这些模型是基于 DistilBERT 和 RoBERTa 的组合，并分别考虑了表情符号的影响。所有结果如表 3 所示，模型之间的对比可视化见图 3、4、5。最佳的四种方法（包括带有和不带表情符号的模型）在各个数据集上都生成了 ROC 曲线，如图 6、7、8 所示。

结果分析

航空公司数据集：

在表情符号的情况下，GLG 模型达到了 83.74% 的准确率，而在去除表情符号后，准确率略微下降为 83.47%。
RoBERTa-3G 在带有表情符号时表现最佳，准确率为 86%；去掉表情符号时，GLG 的准确率为 85.93%。

CrowdFlower 数据集：

在表情符号和无表情符号的情况下，DistilBERT 的 GLG 模型分别取得了 80.42% 和 79.24% 的准确率。
RoBERTa 在表情符号情况下的准确率最高为 82.39%；去除表情符号时，3L 模型表现最佳，准确率为 81.34%。

苹果数据集：

这是最小的数据集，GLG 模型的准确率为 86.81%，其次是 85.89% 的 GLG 模型。
在去除表情符号的情况下，GLG 模型的准确率为 88.04%，而 RoBERTa 在表情符号情况下的表现达到 91.72%。

结论

通过这些实验，我们发现，结合 BiGRU 层的模型通常在处理大型数据集时表现更佳，尤其是 RoBERTa 和 DistilBERT 的组合。整体来看，RoBERTa 模型在大多数数据集上的准确率高于 DistilBERT，证明了 RoBERTa 更为强大。此外，在大多数情况下，去掉表情符号的影响会降低模型的准确性，尤其是当模型是从表情符号中学习时。这提示我们在设计情感分析模型时，应考虑文本数据的多样性和上下文因素。最终，RoBERTa-GLG 被认为是三个数据集中的最佳模型，尤其是在大型数据集上的表现。

与其他模型的性能比较

表4列出了以往论文的准确性比较。加粗的模型是本研究中提出的模型。仅对 DistilBERT 模型进行比较时，在表情符号和无表情符号的这三种数据集中， DistilBERT_GLG 都是最佳模型，但仅在带有表情符号的最小数据集 Apple 中， GLG 是仅次于 LGL 的第二好方法。

GRU 比 LSTM 更高效，因为它们的结构没那么复杂。这种效率在我们的最终结果中有所体现。

对于 DistilBERT 而言，除了带有表情符号的小型数据集“Apple”之外，GLG 在我们的数据集上表现得更好。

对于不含表情符号的 RoBERTa 模型，多层双向门控循环单元（GLG，3G）在大型（航空公司）和小型（苹果）数据集上的表现更好。

对于带有表情符号的 RoBERTa 模型，三层（3G）仅在大型数据集（如航空数据集）上表现更好。

将 BIGRU 层与 DistilBERT 和 RoBERTa 相结合提高了准确性。

所提出的方法与两个预训练的 BERT 模型以及另外七个使用经典机器学习为相同任务构建的其他模型进行了比较。

对于这三个数据集，将 GLG 与 DistilBERT 混合的拟议架构比单独的 DistilBERT 的准确率提高了 0.24%至 1.84%。

对于 Dang 等人[50]，他们移除了中性类别，并计算了具有两个类别（正类和负类）的数据集的准确率，因此他们的分类结果很高。

对于基安（43 岁）而言，数据集被分为 6:2:2 用于训练、验证和测试，使用 Adam 优化器，学习率为 0.00001，批量大小设定为 64，训练 30 个周期。而在我们的工作中，我们将数据集分为 80%用于训练，10%用于验证，10%用于测试，使用 AdamW 优化器，学习率为 5e-5，批量大小为 16，训练 10 个周期。

巴拉卡特[45] 对于推特数据集，三个类别（积极、消极、自然）中的每一个类别分别被分割为 66%用于训练，33%用于测试，使用 Adam 优化器，学习率分别为 0.004 和 0.01，进行微调，分 64 个批次。而在我们的工作中，我们将数据集分割为 80%用于训练，10%用于验证，10%用于测试，使用 AdamW 优化器，学习率为 5e-5，批次大小为 16。

贾恩[44] 他们仅将情感分为两类（积极和消极）。他们从数据集中剔除了中性情感数据，因此他们的分类结果很高。我们使用 AdamW 并且学习率为 5e-5，但在本文中，既未提及优化器类型也未提及学习率值以进行比较。

在表 4 中，我们对比了以往研究中不同模型的准确性，重点关注本研究提出的模型（加粗）。以下是一些关键发现和总结：

模型表现比较

DistilBERT_GLG 是在表情符号和无表情符号的数据集中表现最佳的模型，除了在带有表情符号的苹果数据集中，其准确率仅次于 LGL。
GRU 相较于 LSTM 的结构更简单，表现出更高的效率，这在最终结果中得到了体现。
在没有表情符号的情况下，GLG 在我们的数据集上表现更佳。

RoBERTa 模型的表现

对于不含表情符号的 RoBERTa 模型，GLG 和 3G 在大型（航空公司）和小型（苹果）数据集上均表现良好。
带有表情符号的 RoBERTa 模型，3G 在大型数据集上表现优异。

效果提升

将 BiGRU 层与 DistilBERT 和 RoBERTa 结合使用显著提高了模型的准确性。
相较于单独的 DistilBERT，GLG 组合的准确率提升了 0.24% 至 1.84%。

与其他研究的比较

Dang 等人的研究移除了中性类别，导致其分类准确性较高。
基安（43 岁）的研究将数据集分为 6:2:2 用于训练、验证和测试，而我们采用了 80%-10%-10% 的比例。
巴拉卡特对推特数据集的处理和优化方法与我们的设置不同，显示了不同数据集和优化策略的影响。
贾恩仅将情感分为两类，剔除了中性情感数据，因此分类结果较高。

通过这些比较，我们能够清晰地看出所提出的模型在情感分类任务中的优势，同时也为后续研究提供了有效的参考。

结论与未来工作

在包括商业和政治在内的许多领域，情感分析至关重要，用于了解公众情绪并做出战略决策。

本文为使用三个数据集进行推文情感分类提供了深度学习模型的混合方法，该模型使用多个标签。采用了许多预处理阶段，例如删除名称、尾随、空格、标签和数字。对每个句子进行分词，并为每行文本生成输入 ID 和注意力掩码。在 RoBERTa （BERTBase）中使用预训练的 BERT 分类器模型，并将 DistilBERT（BERTMini）与双向门控循环单元（BiGRU）和双向长短期记忆网络（BiLSTM）混合，以提高准确性。提出了八个混合模型，对于 Apple 数据集，不包含表情符号的 DistilBERTGLG 比单独的 DistilBERT 提高了 1.84%。对于 Airline 数据集，Distil-BERT-GLG 比单独的 DistilBERT 提高了 0.24%。似乎表情符号的存在或缺失会影响模型在准确性方面的性能。在 CrowdFlower 数据集中，对于 Distilbert_GLG，仅在预处理步骤中删除表情符号后，准确率从 80.42%降至 79.24%。此外，不含表情符号的 RoBERTa 模型与我们提出的方法配合良好。

在结论中，对于所有不含表情符号的数据集以及包含表情符号的大中型数据集， GLG 对 DistilBERT 的效果良好；对于 Roberta，带有 BiGRU 层的模型比其他模型表现更好，尤其是对于大小数据集。将 BIGRU 层与 DistilBERT 和 RoBERTa 相结合提高了准确性。

未来，我们希望将这项工作与经典的文本分类算法相结合来加以扩展。为了提高现有系统的性能，最新的特征提取和特征选择方法将与传统方法相结合。

这段总结很好地概括了本文的核心内容和结论。以下是一些要点的提炼和进一步的细化，可能对你的文档有所帮助：

研究背景与意义

情感分析的重要性：在商业和政治领域，情感分析帮助了解公众情绪，并为战略决策提供依据。

方法概述

数据集与预处理：使用三个数据集进行推文情感分类，经过多种预处理步骤，包括删除名称、尾随空格、标签和数字。

模型架构：

使用预训练的 BERT 分类器（RoBERTa 和 DistilBERT）。
提出八个混合模型，将 DistilBERT 与双向门控循环单元（BiGRU）和双向长短期记忆网络（BiLSTM）相结合，以提升准确性。

主要发现

准确性提升：

在 Apple 数据集中，DistilBERT-GLG 的准确率比单独的 DistilBERT 提高了 1.84%。
在 Airline 数据集中，DistilBERT-GLG 比单独的 DistilBERT 提高了 0.24%。

表情符号的影响：表情符号的存在或缺失显著影响模型的性能。在 CrowdFlower 数据集中，去除表情符号后，DistilBERT-GLG 的准确率从 80.42% 降至 79.24%。

RoBERTa 表现：不含表情符号的 RoBERTa 模型与所提出的方法结合良好，且带有 BiGRU 层的模型在各数据集上表现更佳。

结论与未来工作

模型表现：GLG 在不含表情符号的数据集及大中型数据集中表现良好；RoBERTa 结合 BiGRU 层的模型尤为出色。
未来方向：希望将当前工作与经典文本分类算法结合，探索最新的特征提取和选择方法，以进一步提升现有系统的性能。

这种结构有助于清晰地传达研究的目的、方法、发现和未来方向。如果你有任何特定方面想要深入探讨或修改的地方，请告诉我！