Deep Learning Based Text Classification: A Comprehensive Review
相关综述
Deep Learning Based Text Classification: A Comprehensive Review
文本分类综述
一、介绍
自动文本分类的方法可以分为两类:
• Rule-based methods
• Machine learning (data-driven) based methods
Typical TC tasks:
sentiment analysis
news categorization
topic classification.
NLU任务:
Question Answering (QA)
Natural language inference (NLI).
二、文本分类的深度学习模型
1. Feed-Forward Neural Networks(前馈神经网络)
FFN在很多TC(文本分类)任务中实现了高精确度。它把文本看做成一袋单词。每个单词都用word2vec或者Glove等嵌入模型表示成词向量,然后将词向量取和或者平均来代表文本,然后通过一层或多层的前馈神经网络(例如:MLPs),然后使用分类器(例:逻辑回归,朴素贝叶斯,或SVM)对最后一层的表示进行分类。
例如:DAN网络, fastText,doc2vec等
- DAN(Deep Average Network)框架如下:

- fasttext
跟DAN一样,fasttext把文本视为一袋单词。但不同的是,fasttext使用一袋n-gram作为附加特征来捕获本地词序信息(在实践中非常有效)。 - doc2vec
doc2vec可以使用无监督算法来学习可变长度文本片段的固定长度特征提取。其架构与CBOW迷行类似,唯一的区别是通过矩阵D映射到段落向量的附加段落标记。其架构图如下:

2. RNN-Based Models(基于循环神经网络的模型)
RNN-Based

本文详细探讨了深度学习在文本分类中的应用,涵盖了从传统FFN到复杂的Transformer模型,包括Feed-Forward Networks、RNN、CNN、胶囊网络和注意力机制模型。介绍了如何根据任务选择模型,列举了各类数据集,并梳理了预训练语言模型的发展和超越监督学习的方法。
最低0.47元/天 解锁文章
5088

被折叠的 条评论
为什么被折叠?



