毕业设计：基于深度学习的多标签中文短文本分类

原创于 2024-02-01 22:24:30 发布 · 1.5k 阅读

24 ·

CC 4.0 BY-SA版权

文章标签：

#毕业设计 #毕设 #深度学习 #人工智能 #python

深度学习毕业设计专栏收录该内容

130 篇文章

订阅专栏

本文介绍了基于深度学习的多标签中文短文本分类项目，涉及项目背景、设计思路、BERT和GAT模型的应用，以及CorNet模块在提高分类准确性和效率中的作用。作者分享了数据集的制作和模型训练的详细步骤，展示了如何结合BERT和图注意力网络进行有效的文本表示和分类。

前言

📅大四是整个大学期间最忙碌的时光,一边要忙着备考或实习为毕业后面临的就业升学做准备,一边要为毕业设计耗费大量精力。近几年各个学校要求的毕设项目越来越难,有不少课题是研究生级别难度的,对本科同学来说是充满挑战。为帮助大家顺利通过和节省时间与精力投入到更重要的就业和考试中去,学长分享优质的选题经验和毕设项目与技术思路。

🚀对毕设有任何疑问都可以问学长哦!

大家好,这里是海浪学长计算机毕设专题,本次分享的课题是

🎯基于深度学习的多标签中文短文本分类

项目背景

随着互联网和社交媒体的快速发展，大量的中文短文本数据被广泛产生和分享，如微博、评论、新闻标题等。这些短文本数据包含丰富的信息，但由于其长度短、语言表达复杂多变，传统的文本分类方法在处理中文短文本时面临着挑战。中文短文本分类可以帮助社交媒体平台和新闻机构快速准确地进行内容过滤和分类，提高用户体验和信息推荐的效果。其次，企业可以利用中文短文本分类技术对用户评论、产品评价等进行情感分析和舆情监测，从而及时了解用户需求和市场动态。此外，政府部门可以利用该技术对社会舆情进行监测和分析，为决策提供重要参考。

设计思路

多标签中文短文本分类是一个重要的课题，随着互联网和社交媒体的发展，大量的中文短文本数据需要进行自动化分类。传统的机器学习方法如KNN、SVM、RF、XGBoost等被广泛应用，但随着深度学习的兴起，越来越多的深度学习方法被用于解决这一问题。其中，TextCNN、LSTM、GRU等模型被尝试，但它们各自存在局限性。引入预训练语言模型如BERT和图神经网络如GCN和GAT，能够有效改善文本分类的效果。

多标签文本分类模型具有以下特性的扩展：

1）模型的输入是经过jieba分词处理的中文文档，这有助于对文本进行更好的处理和表示。
2）在节点初始化时，采用了BERT进行初始化，这可以利用BERT的语义表示能力为模型提供更好的初始特征。
3）模型中的BERT层用于表示单词的初始特征，并将其嵌入为300维的向量。本文中使用了BERT-base-Chinese模型，适用于中文文本分类任务。
4）引入了图注意网络，通过计算文档词之间的余弦相似度来创建图结构，并通过赋予不同的权重来捕获节点之间的依赖关系。这有助于获取具有深层语义信息的词向量，提高模型的表达能力。
5）在分类输出层之前添加了CorNet模块，该模块能够学习标签之间的相关性，并利用相关性知识增强原始标签的预测结果，从而输出更准确的标签预测结果。

毕业设计：基于深度学习的多标签中文短文本分类

初始的文本需要转换为文本向量才能被计算机处理。传统的one-hot向量维度与单词数相同，导致维度爆炸且无法表达词与词之间的关系。随着神经网络的发展，Word2Vec和GloVe等词嵌入方法出现，可以将单词表示为低维连续的向量，能够体现词与词之间的相关性。然而，这些方法仍然是静态的词向量，无法捕捉到上下文的变化。BERT是一个由多层Transformer构成的预训练模型，可以根据上下文计算单词的向量表示，不同的上下文会有不同的表示。BERT的流程是将一段长度为k的文章作为输入，通过BERT层得到相应的词向量，其中每个单词都经过Transformer处理后得到输出词向量。

毕业设计：基于深度学习的多标签中文短文本分类

GAT层的输入由邻接矩阵和标签特征组成。首先，构建邻接矩阵通过标签的成对共现来构造，利用训练数据标签共现矩阵和频率向量构建初始邻接矩阵。然后，在标签提取层中，GAT模型引入注意力机制为标签节点分配权重。通过计算节点之间的重要性和归一化的注意力系数，可以得到每个节点对其他节点的权重。GAT模型还引入了多头注意力的概念，在多个注意力头的基础上通过拼接操作得到输出向量。每个注意力头都使用参数矩阵和归一化注意力系数来计算节点的输出特征。最终，在预测层中采用平均法对多个注意力头的输出进行整合。

毕业设计：基于深度学习的多标签中文短文本分类

在原始的标签预测之后添加一个CorNet模块具有多重好处。首先，CorNet能够挖掘出标签之间的相关性，从而提高标签预测的准确性。其次，CorNet的加入可以加快模型的收敛速度，使得训练过程更加高效。此外，通过增加CorNet层数，还能一定程度上防止梯度消散问题的出现，提高模型的稳定性。

毕业设计：基于深度学习的多标签中文短文本分类

数据集

由于网络上没有现有的合适的数据集，我决定自己收集并制作了一个全新的数据集。数据集包含了10,000条中文新闻，文本长度在20~30之间，共有10个类别，包括金融、不动产、股票、教育、科学、社会、政治、运动、游戏和娱乐。这个自制的数据集将为检测研究提供有力的支持，并为该领域的发展做出积极贡献。通过自行制作数据集，用户能够满足特定需求，并且为特定领域的研究提供了更加专业和准确的数据资源，为相关领域的研究人员和开发者提供了有益的参考和支持。

模型训练

本实验使用了Python 3.7和PyTorch 1.12.1作为训练框架。实验中使用了一块Tesla T4 GPU进行模型训练。所采用的BERT模型是BERT-base-Chinese，其隐藏层维度为768。BERT的学习率设置为1×10^-5，而后续网络的学习率设置为1×10^-3。实验中采用了8个注意力头，epochs设置为32，批量大小（Batch size）设置为32。通过这些设置，实验旨在利用BERT模型和多头注意力机制对自制的数据集进行训练和分类。这些参数的选择是为了在给定的硬件和数据集条件下获得较好的训练结果，并且能够高效地利用GPU进行加速。

消融实验的目的是通过逐步去除或改变模型中的组件，评估其对模型性能的贡献，简化和优化模型结构，验证假设或推论的有效性，并与消融实验进行对比以改进模型设计和性能。通过消融实验，我们可以深入了解模型的工作原理，识别关键组件和次要组件，提高模型的效率和解释性，推动相关领域的研究和方法的进一步发展。

相较于现在主流的词向量表示方法如GloVe和Word2Vec，采用BERT能更好地表示词向量，因为它能考虑词的位置信息。而GAT则通过注意力机制根据与节点相关的不同特征分配不同的权重，在构图时引入依存关系，解决了短文本分类语料的稀疏问题。此外，通过CorNet学习标签之间的相互关系，有效改善了中文短文本分类的效果。