文本分类综述

本文详细探讨了深度学习在文本分类中的应用,涵盖了从传统FFN到复杂的Transformer模型,包括Feed-Forward Networks、RNN、CNN、胶囊网络和注意力机制模型。介绍了如何根据任务选择模型,列举了各类数据集,并梳理了预训练语言模型的发展和超越监督学习的方法。

Deep Learning Based Text Classification: A Comprehensive Review

相关综述
Deep Learning Based Text Classification: A Comprehensive Review

文本分类综述

一、介绍

自动文本分类的方法可以分为两类:
• Rule-based methods
• Machine learning (data-driven) based methods

Typical TC tasks:
sentiment analysis
news categorization
topic classification.

NLU任务:
Question Answering (QA)
Natural language inference (NLI).

二、文本分类的深度学习模型

1. Feed-Forward Neural Networks(前馈神经网络)

FFN在很多TC(文本分类)任务中实现了高精确度。它把文本看做成一袋单词。每个单词都用word2vec或者Glove等嵌入模型表示成词向量,然后将词向量取和或者平均来代表文本,然后通过一层或多层的前馈神经网络(例如:MLPs),然后使用分类器(例:逻辑回归,朴素贝叶斯,或SVM)对最后一层的表示进行分类。

例如:DAN网络, fastText,doc2vec等

  • DAN(Deep Average Network)框架如下:
    在这里插入图片描述
  • fasttext
    跟DAN一样,fasttext把文本视为一袋单词。但不同的是,fasttext使用一袋n-gram作为附加特征来捕获本地词序信息(在实践中非常有效)。
  • doc2vec
    doc2vec可以使用无监督算法来学习可变长度文本片段的固定长度特征提取。其架构与CBOW迷行类似,唯一的区别是通过矩阵D映射到段落向量的附加段落标记。其架构图如下:
    在这里插入图片描述

2. RNN-Based Models(基于循环神经网络的模型)

RNN-Based

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值